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20 世纪 三 四 十 年 代 , 一 直 摸索 着 前 进 的 计算 技术 与 刚 走 向 成 熟 的 电子 技术 结缘 。 这 一 
结合 ,不 仅 孕 育 了 新 一 代 计算 工具 一 一 电子 计算 机 ,还 产生 了 当时 谁 也 没有 料 到 的 巨大 效 
应 :电子 计算 机 一 一 这 种 当初 为 计算 而 开发 出 来 的 工具 ,很 快 就 超出 计算 的 范畴 ,成 为 “信息 
处 理 机 ”的 代名词 。 

信息 能 促成 管理 系统 的 优化 ,促进 组 织 创新 ,绩效 不 断 上 升 ;信息 能 提高 计划 与 决策 的 
科学 性 和 及 时 性 ,是 信息 时 代 组 织 生存 、 发 展 、. 竞 争 . 制 胜 的 有 力 武器 ;信息 能 革新 企业 内 部 
的 生产 力 要 素 结构 ,使 资源 转换 系统 的 生产 率 大 幅度 提高 ,并 同时 以 不 断 增加 的 柔性 适应 市 
场 需求 结构 和 消费 结构 的 快速 变化 。 

随 着 信息 技术 的 发 展 与 广泛 应 用 ,人 类 开始 能 够 高 效率 地 开发 并 利用 信息 ,信息 资源 对 
人 类 社会 的 作用 得 以 有 效 的 发 挥 , 并 逐步 超过 材料 和 能 源 成 为 人 类 社会 的 重要 支柱 ,信息 化 
成 为 一 个 时 代 的 口号 。 与 此 同时 ,信息 资源 开发 与 管理 人 才 越 来 越 广 受 社会 青睐 。 

信息 管理 与 信息 系统 专业 是 一 个 培养 信息 化 人 才 的 专业 ,是 一 个 培养 信息 资源 开发 与 
管理 方面 的 专门 人 才 的 专业 。 从 知识 结构 上 看 , 它 处 在 管理 学 ,信息 科学 与 技术 和 有 关 专 业 
领域 的 交叉 点 上 。 它 对 技术 有 极 高 的 要 求 ,又 要 求 对 组 织 有 深刻 的 理解 ,对 行为 有 合理 的 组 
织 , 反 映 了 科学 与 人 本 融合 的 特点 。 这 种 交叉 与 融合 正 是 信息 管理 与 信息 系统 专业 最 重要 
的 特征 ,是 其 他 学 科 或 专业 难以 取代 和 涵盖 的 。 但 是 , 它 从 20 世纪 70 年 代 末 开始 创办 到 
90 年 代 初 ,尽管 国内 设 有 该 专业 的 院 校 已 经 上 升 到 150 多 所 ,但 还 没有 形成 很 好 反映 自己 
特色 的 一 个 教材 体系 。1991 年 ,全 国 10 所 院 校 的 信息 管理 专业 的 负责 人 在 太原 召开 第 一 
次 研讨 会 ,异口同声 地 谈 起 创建 一 套 符 合 专 业 需 要 的 教材 体系 话题 。 以 后 ,又 经 过 1993 年 
在 大 连 、1995 年 在 武汉 ,又 有 更 多 的 院 校 参加 到 了 这 一 研讨 之 中 。 这 些 研讨 活动 得 到 了 国 
家 教委 有 关 部 门 的 赞许 和 支持 。 通 过 研讨 ,大 家 在 建设 具有 专业 特点 的 教材 体系 .改变 简单 
照搬 其 他 专业 教材 上 取得 了 共识 。1996 年 正式 启动 这 个 项 目 ,协商 由 张 基 温 教授 担任 主 
编 , 由 魏 晴 宇 教授 、 陈 禹 教授 担任 顾问 。 在 清华 大 学 出 版 社 的 大 力 支 持 下 ,从 1997 年 起 这 套 
我 国信 息 管理 与 信息 系统 专业 的 第 一 套 系列 教材 陆续 问世 。 迄 今 已 经 10 年 多 ,当初 规划 的 
七 八 本 教材 已 经 扩展 到 30 多 本 ,形成 了 一 套 品种 多 样 .影响 面 广 的 系列 教材 ,不 仅 为 信息 管 
理 和 信息 系统 专业 建设 作出 了 贡献 ,而 且 也 被 许多 计算 机 专业 所 选用 。 这 些 都 是 编 委 会 全 
体 同 仁和 作者 ,广大 使 用 本 系列 教材 的 师 生 以 及 出 版 社 的 编辑 们 辛勤 劳动 的 结果 。 

同时 ,我 们 也 欣喜 地 看 到 ,10 年 来 ,信息 管理 与 信息 系统 专业 也 有 了 和 较 大 的 发 展 ,不 仅 
其 规模 已 经 发 展 到 500 多 个 点 ,而 且 随 着 信息 化 的 纵深 推进 , 随 着 电子 商务 、 电 子 政务 和 企 
业 信 息 化 的 发 展 ,专业 的 教学 内 容 也 与 时 俱 进 地 深化 和 更 新 ,从 过 去 的 围绕 信息 系统 分 析 与 
设计 ,已 经 延伸 到 信息 资源 的 开发 与 管理 ;专业 的 定位 也 逐步 明晰 , 即 为 信息 化 建设 与 管理 
培养 人 才 。 同 时 ,近年 来 围绕 提高 教学 质量 ,许多 学 校 开 展 了 精品 课程 建设 和 教材 建设 。 这 
些 都 标志 着 这 个 专业 正在 走向 成 熟 。 


成 熟 的 专业 ,需要 优秀 教材 的 支持 。 我 们 重新 审视 并 修订 这 套 教 材 。 在 这 套 教材 问世 
10 周年 之 际 ,我们 再 一 次 表示 一 个 心愿 :希望 与 全 国 的 同行 共勉 ,在 教材 和 专业 建设 上 章 心 
协力 ,作出 更 大 的 贡献 。 我 们 将 在 原来 的 基础 上 ,重新 审视 ,不 断 补充 ,不 断 修改 ,不 断 完善 。 
对 于 它 的 任何 建设 性 意见 ,都 是 我 们 非常 期 盼 的 。 为 此 ,这 一 套 教材 将 具有 充分 的 开放 性 : 
每 一 本 教材 都 是 一 个 原型 ,每 一 位 有 志 者 对 它 的 建设 性 意见 都 将 会 被 采纳 ,并 享有 自己 的 知 
识 产 权 , 以 使 它们 逐步 成 为 精品 。 


《高 等 院 校 信息 管理 与 信息 系统 专业 系列 教材 》 编 委 会 


前 言 


随 着 计算 机 应 用 技术 和 网 络 技术 的 普及 ,全 社会 的 信息 化 程度 不 断 提 高 ,新 的 管理 模式 
不 断 涌现 ,对 信息 系统 的 依赖 程度 越 来 越 高 。 信 息 管理 工程 研究 者 和 管理 者 面临 严峻 挑战 : 
如 何 从 海量 、 分 散 、 复 杂 类 型 的 数据 海洋 中 ,迅速 找 出 有 价值 的 和 潜在 有 用 的 信息 与 知识 ? 
如 何 实现 对 多 维 数据 的 集中 组 织 ` 分 析 与 管理 ? 数据 仓库 与 数据 挖掘 可 以 为 上 述 问题 提供 
有 效 的 解决 方案 。 数 据 挖掘 理论 及 方法 研究 与 创新 已 经 成 为 信息 科学 与 管理 工程 领域 最 重 
要 的 研究 方向 之 一 。 

笔者 在 数据 仓库 技术 与 数据 挖掘 模型 方面 潜心 研究 数 十 年 。 尤 其 近年 来 ,通过 国家 自 
然 科 学 基金 ,教育 部 .科技 部 和 交通 运输 部 ,省 市 多 个 科研 项 目的 资助 ,深入 研究 了 数据 挖掘 
的 理论 ,技术 与 方法 ,获得 多 项 科研 成 果 。 特 别 是 面向 交通 运输 ,物流 管理 等 特色 领域 ,开展 
基于 数据 仓库 与 数据 挖掘 的 创新 性 研究 ,取得 了 良好 的 社会 效益 与 经 济 效益 。 

撰写 本 书 的 目的 在 于 : 利用 数据 仓库 技术 将 异 构 的 、 多 维 的 .具有 复杂 类 型 的 多 源 数据 
整合 到 一 个 公共 平台 上 进行 统一 组 织 与 管理 ,在 此 基础 上 ,采用 多 种 数据 挖掘 方法 与 模型 ， 
实现 从 底层 信息 管理 到 高 层 知识 管理 全 过 程 的 信息 深加工 .挖掘 与 增值 。 

本 书 采用 逐步 演算 和 编程 运行 相 结合 的 方式 ,力争 使 广大 读者 通过 本 书 的 学 习 能 够 快 
速 掌握 数据 挖掘 模型 的 理论 BR 方法 及 应 用 。 全 书 共 分 为 11 章 , 包 括 数 据 挖掘 概述 , 数 
据 采集 .集成 与 预 处 理 技术 ,多 维 数据 分 析 与 组 织 ,预测 模型 研究 与 应 用 ,关联 规则 模型 及 应 
用 , 聚 类 分 析 方法 与 应 用 ,粗糙 集 方 法 与 应 用 ,遗传 算法 与 应 用 ,基于 模糊 理论 的 模型 与 应 
用 ,灰色 系统 理论 与 方法 ,基于 数据 挖掘 的 知识 推理 。 

本 书 主要 由 陈 燕 编写 , 屈 莉莉 、 杨 明 、, 张 琳 、 乔 月 英吉 飞 \ 赵 路 、 程 澄 . 于 莹 莹 、 林 博 辞 等 
参与 完成 部 分 章节 中 具体 数据 挖掘 方法 的 应 用 算 例 和 全 书 的 校对 工作 。 

本 书 旨 在 涵盖 典型 和 有 代表 性 的 数据 挖掘 算法 ,但 由 于 数据 挖掘 方法 多 种 多 样 , 还 有 许 
多 数据 挖掘 模型 需要 进一步 探讨 。 在 编写 过 程 中 ,笔者 查阅 了 国内 外 大 量 文献 资料 , 谨 向 书 
中 提 到 的 和 参考 文献 中 列 出 的 学 者 表示 感谢 。 如 果 由 于 我 们 工作 的 玖 忽 , 致 使 本 书 中 某 处 
内 容 所 参考 的 文献 没有 列 出 ,在 此 向 所 涉及 的 作者 深 表 菊 意 。 同 时 ,由 于 时 间 仓 促 和 编者 能 
力 有 限 , 书 中 难免 存在 一 些 不 当 之 处 , 敬 请 广大 读者 批评 指正 。 


2010 年 4 月 


录 


第 1 章 数据 挖掘 概述 … 


LA 


1.5 
思考 题 


第 2 章 ”数据 采集 、 集 成 与 预 处 理 技术 … 


2.1 
2.2 


2.4 
2.5 


2.6 


数据 仓库 和 数据 挖掘 定义 与 解释 - 


1.1.1 数据 仓库 的 定义 与 解释 … 
1.1.2 数据 挖掘 的 定义 与 解释 … 
数据 仓库 系统 的 相关 技术 - 


1.2.1 数据 仓库 系统 相关 技术 之 间 的 关系 … 


1.2.2 数据 仓库 系统 模式 … 


数据 仓库 系统 中 多 维 数据 组 织 的 形式 化 定义 与 描 


one 人 


小 结 结 .… 


数据 采集 的 对 象 … 


a i les cheng E dive vig E E 
2.2.1 3G $F MIS BOSE RRRE n eae r aasa Eai 
2.2.2 SR PCHERR A VETE SLB neni 
Be He Fa E = E nen cise cscerin dG cada de dag canbe cada eceesecne E, 
ERME E E l A r E EEE E E 
i 
Rr ee 


23.4 ee Nae = 


PIER. 
2.5.1 中 间 件 技术 的 定义 与 作用 - 


小 结 … 


思考 题 ， 


第 3 章 ”多维 数据 分 析 与 组 织 


Bl 


多 维 数据 分 析 概 述 … 


41,1 a INE l a E en ar 


2.5.2 中 间 件 技术 在 数据 仓库 系统 中 数据 采集 的 应 用 ， ER 


ON WwW wWr Pe Ee 


3.2 


3.5 


oe vets se 20 
= 70 


3.4.1 Coe a 


Nie 


思考 题 ， 


第 4 章 ”预测 模型 研究 与 应 用 


4.1 


4.2 


4.3 


4.4 


4.5 
4.6 
4.7 


预测 模型 的 基础 理论 … 


趋势 外 推 预测 模型 … 
4.3.1 皮尔 预测 模型 
4.3.2 MAHR - 


er eect 


Re 


第 5 章 pd eR ea a de E 
5.1.2 XPL Ze A EE BE FEE AOE vee cee cee cee cee cee cee cee cee tte eee eee eee 


5.1 


56 
57 
58 
58 
60 
62 
65 
65 
66 
68 


68 


ei 
TEM a e T 
本 2 1 一 元 线性 回归 预测 模型 
4.2.3 FESR PE DAVE FOU BEI ne eee cee eee eee cee aae geia Dood 
= 85 
= 85 
4. 4.2 指数 平滑 预测 模型 oo 

a a 118 
aw TIS 
119 


71 
71 
72 
72 
76 
81 


91 
94 
94 
95 
101 


115 


119 
119 
119 


5.2 


5. 4 
5.5 


Apriori 3E 0B Bi WY «++ 2-222 20sec en cee ent nee cen ene cance ace sec enn een ene enatenenmnanieds 
5.3.1 动态 存储 空间 的 构建 pp 
5.3.3 改进 算法 的 时 间 复 杂 性 分 析 -ppp 
Apriori 关联 规则 方法 的 实例 … a T 
SA 0 


改进 的 Apriori 关联 规则 方法 


ee 


gee 


Be De E Eaa Ae a 

6.2.1 ÆT HY RIED eseis aratia ene eee Enisa iaren eenens 

6.2.2 FEF IR UC HY RTT eee cee cee cee ce eee cee cen cee cee een cee 5 
6.2.3 FEAF BRE AY RGD eee cee cee cee cee cee cee cee cee cee ten eee ete eee cnet eee eenees 
6.2.4 基于 网 格 的 聚 类 方法 站 pp 
6.2.5 RETF AEH HY BRETT Be enc ee cee cee cee E E EE 
IMF BR IEG) BET YE Saeed 
6.3.1 k-means BRAS PP PE 和 
6.3.2 k-medoids 聚 类 方法 PN 
ps e R AOR 
6.3.5 DBSCAN RAJE PN 
P E E E E taken ee eernunabseemmsegetnae 


6.1 


6.2 


6.4 


6.1.1 聚 类 分 析 的 定义 … 


聚 类 分 析 的 方法 + 


思考 题 … 


第 7 章 粗糙 集 方法 与 应 用 … 


en 


7.2 


Ts 


粗糙 集 理论 背景 介绍 
7.1.1 粗糙 集 的 含义 … 


7.1.2 粗糙 集 的 应 用 及 与 其 他 领域 的 结 


粗糙 集 基本 理论 ……………… 
7.2.1 知识 与 不 可 分 辨 关系 … 


121 
121 
122 


123 
123 
124 
126 


s 133 
< 134 


134 


134 


135 
136 
137 
138 
138 
140 
140 
141 
144 
145 
147 
149 


< 149 
+ 150 
- 150 
= 150 
s 150 


153 


0 ]53 
232 Remin KISER eagen 

TB E E ie a He E A E ds hacdeel ooleiccieaedets 
7.2.4 PARES DHE SE Ay PI Ga on nen ene ce eee cee cence cesses E EER ENEs 
E N E A a EN E E A 


154 
155 
156 
156 


1.5 


7.3.1 知识 的 约 简 和 核 … 


7.3.2 知识 的 依赖 性 度量 和 属性 的 重要 度 … 


基于 粗糙 集 的 决策 知识 表示 pp 


INGE dessin sencnesnas 


思考 题 … 


8.1 


8.2 


8.4 


8.5 


8.1.2 遗传 算法 特点 … 
遗传 算法 的 应 用 领域 和 研究 方向 
8.2.1 遗传 算法 的 应 用 领域 … 


8.3.3 遗传 算法 的 主要 算 子 …… 


8.3.4 遗传 算法 的 适应 度 函 数 … 


遗传 算法 计算 过 程 和 应 用 ， 


思考 题 … 


9.1 


9.2 


层次 分 析 方法 - 

9.1.1 层次 分 析 法 的 计算 步骤 … 
9.1.2 层次 分 析 法 应 用 实例 … 

模糊 层次 分 析 法 - 


模糊 综合 评判 方法 ， pa 
9. 3.1 模糊 综合 评判 法 的 原理 与 步骤 … 


模糊 聚 类 分 析 方 法 、 
9.4.1 模糊 聚 类 方法 介绍 … 


se 197 
= TaY 
,OY 

7.4.1 基于 粗糙 集 的 决策 知识 表示 方法 和 pp 
7.4, 2 HEE BE Le SUL UU HE BBE AY IA FEL Bi] one eee eee eee ee ee cee cee ee cee cee ve 
aac asbatonaeseeaaeasacseaneanteasatensoasuaams. 169 


160 
161 


ee re a Ce eae |e 

第 8 章 ”遗传 算法 与 应 用 …… esenee eee 
遗传 算法 基础 理论 
gii 遗传 算法 概述 … 
- 165 
. 165 
E TE T A 让 从 全 

AA FE Be PE ESE Fp (ell sos Sate een Se tis na eps sowie Seaver ane ceectoenterstenannees 
过 伟 千 法 的 此 和 定 因 是 二 
8.3.1 遗传 算法 的 相关 概念 pp 
8 2 和 伟人 徊 儒 的 编 三 烦 刚 号 Eee 
< 171 
= 175 
sbi 20s Gee deb sat Seeds cee sssserecadaceceatsess. PTE 

8.4.1 遗传 算法 计算 过 程 站 ppp 
8.4.2 各 传 算法 参数 选择 aa 


SAS ERE SES Bia Pees sesh eeeescles cases ec ieee ede eee 


164 
164 
164 


168 
169 
169 
169 


176 
176 
177 
181 


= | 
第 9 章 基于 模糊 理论 的 模型 与 应 用 .pp 
- 182 
- 182 
+ 185 
ele Rn a a a dn, TR 
9.2.1 模糊 层次 分 析 法 的 步骤 … sided PEI EE E E PRO 
9.2.2 ”模糊 层次 分 析 法 应 用 实例 … ee 
191 
0st sea. 10] 
9.3.2 模糊 综合 评判 法 应 用 实例 … oo 
人 I 


182 


188 


194 


SS 
9.4.2 模糊 聚 类 算法 应 用 .pp 


196 


a 


第 10 章 KREARBCSAE - 


10.1 灰色 系统 的 基础 理论 … 
10.1.1 灰色 系统 理论 介绍 
10.1.2 网 


10. 2 kenman re 


10. 3 pee 


10.3.1 基于 灰色 关联 度 的 聚 类 分 析 … 


10.3.2 基于 灰色 白化 权 函 数 的 聚 类 方法 … 
10.4 灰色 综合 评价 方法 … 


10. 5 E 小 结 … 
思考 题 … 


第 11 章 ”基于 数据 挖掘 的 知识 推理 


11.1 知识 推理 的 分 类 … 


11.2.1 基于 决策 树 的 知识 推理 … 
142.2 oo 


11.3 Aisi 


198 


= 198 
=. 199 
se 199 
tk. 199 
… 206 
… 206 
s 211 
10.4.1 多 层次 灰色 综合 评价 方法 计算 步 又 .pp 
10.4.2 多 层次 灰色 综合 评价 方法 应 用 案例 pp 
- 221 
i 222 
1H, e E E AY E ee nse ccce coves occ cewccesesces cedceewvececons cveetendetecece 
(Pe ee eee E Coenen eee neem err E epee rete 
11.2 基于 数据 挖掘 方法 的 知识 推理 .pp 
+ 229 
a ea 


200 


203 
204 


215 
217 


222 
222 
227 
227 
229 


234 


235 
236 


Bila JABBERA 


AAS BE WY EBT O E AE TA Te. RA OD BB TEE HP Ld Br eb E = 
种 技术 之 间 的 关系 ,并 给 出 数据 仓库 系统 的 通用 模式 。 提 出 了 一 种 新 颖 的 数据 仓库 系统 中 
多 维 数据 组 织 的 形式 化 定义 与 描述 方法 。 从 数据 挖掘 系统 的 发 展 阶段 、 系 统 结构 、 相 关 技 
术 、 实 现 工 具 和 应 用 领域 等 多 个 方面 ,概述 了 数据 挖掘 的 理论 ,技术 与 方法 。 


1.1 数据 仓库 和 数据 挖掘 定义 与 解释 


1.1.1 数据 仓库 的 定义 与 解释 


数据 仓库 (Data Warehouse,DW) 属 于 一 种 高 层 管理 的 新 型 数据 库 技 术 。 将 分 散在 诸 
多 数据 库 系统 (DataBase System,DBS) 中 的 数据 ,安全 ,平稳 ,有 效 地 集成 到 一 个 公共 信息 
平台 模式 下 ,这 是 数据 仓库 建立 的 基础 ,也 就 是 说 ,在 DBS 趋 于 完善 化 的 今天 ,其 技术 进 一 
步 发 展 的 趋势 是 : 建立 基于 DBS 基础 之 上 的 DW, 以 实现 DBS 之 上 的 高 层 管理 .智能 管理 
和 知识 管理 , 即 实现 数据 挖掘 与 高 层 管理 决策 分 析 的 最 终 目标 。 

数据 仓库 概念 的 提出 者 及 相关 技术 的 主要 倡导 者 ,美国 著名 信息 工程 学 家 Willian 
Inmon 博士 对 数据 仓库 的 解释 是 : 数据 仓库 通常 是 一 个 面向 主题 的 、 集 成 的 .相对 稳定 的 、 
反映 历史 变化 的 数据 的 集合 ,用 于 支持 经 营 管理 中 的 决策 制定 过 程 。 所 谓 面向 主题 ,是 指 操 
作 型 数据 库 的 数据 组 织 面向 事务 处 理 任务 ,各 个 业务 系统 之 间 各 自分 离 ,而 数据 仓库 中 的 数 
据 是 按照 一 定 的 主题 域 进行 组 织 的 。 所 谓 集成 ,是 指数 据 仓 库 中 的 数据 是 在 对 原 有 分 散 的 
数据 库 数据 进行 抽取 、 清 理 的 基础 上 经 过 系统 加 工 ` 汇 总 和 整理 得 到 的 ,必须 消除 源 数据 中 
的 不 一 致 性 ,以 保证 数据 仓库 内 的 信息 是 关于 整个 企业 的 一 致 的 全 局 信息 。 

所 谓 相 对 稳定 ,是 指数 据 仓 库 的 数据 主要 供 企 业 决 策 分 析 之 用 ,所 涉及 的 数据 操作 
主要 是 数据 查询 ,一 旦 某 个 数据 进入 数据 仓库 ,一 般 情 况 下 将 被 长 期 保留 ,也 就 是 数据 仓 
库 中 一 般 有 大 量 的 查询 操作 ,但 修改 和 删除 操作 很 少 ,通常 只 需要 定期 地 加 载 和 刷新 。 
所 谓 反 映 历史 变化 ,是 指数 据 仓库 中 的 数据 通常 包含 历史 信息 ,系统 记录 了 企业 从 过 去 
某 一 时 刻 ( 如 开始 应 用 数据 仓库 的 时 刻 ) 到 目前 的 各 个 阶段 的 信息 ,通过 这 些 信 息 , 可 以 
对 企业 的 发 展 历程 和 未 来 趋势 做 出 定量 分 析 和 预测 。 由 于 数据 仓库 涉及 多 元 、 多 维 的 复 
杂 数 据 , 数 据 时 间 跨 度 大 等 多 种 原因 ,因此 数据 仓库 是 一 个 对 多 维 异 构 数据 一 体 化 组 织 
与 管理 的 复杂 过 程 。 


1.1.2 数据 挖掘 的 定义 与 解释 


随 着 信息 技术 的 发 展 与 普及 ,大 量 的 数据 与 信息 的 积累 ,如 何 从 海量 的 数据 中 提取 
sie 


有 用 的 和 有 价值 的 信息 , 即 知识 ,已 成 为 信息 技术 研究 的 重要 问题 ,数据 挖掘 技术 应 运 
而 生 。20 世纪 90 年 代 , 以 美国 信息 工程 领域 专家 为 代表 ,开始 研究 数据 挖掘 的 理论 与 
Tri. 

数据 挖掘 (Data Mining,DM) 的 概念 最 早 是 在 1995 年 的 美国 计算 机 年 会 (ACM) 上 提 
出 的 ,数据 挖掘 就 是 从 大 量 的 ,不 完全 的 ` 有 噪声 的 、 模 糊 的 、 随 机 的 数据 中 ,提取 隐 含 在 其 中 
的 、 人 们 事先 不 知道 的 \ 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 

另 一 种 比较 公认 的 定义 是 W. J. Frawley, G. Piatetsky-Shapiro 等 人 提出 的 ,数据 挖 
掘 就 是 从 大 型 数据 库 中 的 数据 中 提取 人 们 感 兴趣 的 知识 。 这 些 知识 是 隐 含 的 .事先 未 
知 的 潜在 的 有 用 的 信息 ,提取 的 知识 表示 为 概念 (Concepts)、 规 则 (Rules)、 规 律 
(Regulations) 、 模 式 (Patterns) 等 形式 ,后 来 专家 们 将 这 些 形式 的 知识 表达 模式 运用 形 
式 化 定义 来 描述 。 

数据 挖掘 的 一 个 重要 过 程 就 是 从 数据 中 挖掘 知识 的 过 程 , 也 称 为 数据 库 中 知识 发 现 
(Knowledge Discovery in Databases,KDD) 过 程 和 知识 提取 、 数 据 采掘 的 过 程 等 ,并 且 可 以 
在 其 过 程 中 用 于 发 现 概念 /类 描述 .分 类 关联、 预测 、 聚 类 趋势 分 析 、 偏 差分 析 和 相似 性 分 
析 及 结果 的 可 视 化 。 

因此 ,可 以 将 数据 挖掘 理解 为 : 在 庞大 的 数据 库 中 寻找 出 有 价值 的 隐藏 事件 ,并 利用 人 
工 智 能 、 统 计 、 预 测 的 科学 技术 ,将 其 数据 进行 科学 有 价值 的 提取 和 深入 分 析 , 找 出 其 中 的 知 
识 ,并 根据 企业 发 展 中 的 需求 问题 建立 不 同 的 挖掘 模型 ,以 此 作为 提供 企业 进行 决策 分 析 时 
的 参考 依据 。 

人 们 把 原始 数据 视 为 形成 知识 的 源泉 ,就 像 从 矿石 中 采矿 一 样 。 原 始 数据 可 以 是 结构 
化 的 ,如 关系 型 数据 库 中 的 数据 ,也 可 以 是 半 结 构 化 的 ,如 文本 ,图形 .图 像 数据 ,甚至 是 分 布 
在 网 络 上 的 异 构 数据 。 发 现 知识 的 方法 可 以 是 数学 的 ,也 可 以 是 非 数 学 的 ;可 以 是 演绎 的 ， 
也 可 以 是 归纳 的 。 发 现 了 的 知识 可 以 用 于 信息 管理 ,查询 优化 .决策 支持 .过 程控 制 等 ,还 可 
以 用 于 数据 自身 的 维护 。 数 据 挖掘 的 主要 目标 是 : 在 众多 复杂 类 型 数据 中 找 出 “ 金 块 ”, 能 
在 商务 (企业 ) 数 据 中 找 出 提高 销售 量 和 效益 的 关键 因素 ,并 且 也 能 通过 数据 挖掘 找 出 影响 
企业 效益 增长 的 相关 因素 。 因 此 ,数据 挖掘 是 一 门 广义 的 交叉 学 科 , 它 汇聚 了 不 同 领域 
的 研究 者 ,尤其 是 数据 库 、 人 工 智 能 、 数 理 统计 、 可 视 化 、 并 行 计算 等 方面 的 学 者 和 工程 技 
术 人 员 。 

数据 挖掘 的 概念 随 着 其 发 展 而 不 断 得 到 充实 ,美国 的 一 项 研究 报告 将 DM 视 为 21 世纪 
十 大 明星 产业 之 一 。 数 据 挖掘 已 成 为 当今 知识 管理 、 商 业 智 能 领域 最 热门 的 话题 之 一 。 越 
来 越 多 的 企业 通过 对 数据 挖掘 概念 和 技术 的 了 解 与 应 用 ,达到 解决 信息 工程 领域 关键 技术 
难题 的 目的 。 

数据 挖掘 的 用 途 无 所 不 在 。 它 可 以 应 用 在 生产 任务 的 预测 与 分 析 、 生 产 效益 的 评估 与 
分 析 、 销 售 领域 的 预测 分 析 、 物 流 企业 的 货源 预测 与 分 析 、 交 通 牧 事 逃逸 案 的 分 析 、` 超 市 的 物 
品 摆 放 、 银 行 的 贷款 预测 与 决策 分 析 、 服 装 领 域 的 职业 服装 号 型 归档 、 大 型 数据 库 的 关联 知 
识 挖掘 、 企 业绩 效 评 估 与 分 析 等 相关 的 领域 中 ;也 可 以 应 用 在 更 细致 的 研究 中 ,比如 : 在 金 
融 行业 出 现 的 基于 数据 仓库 贷款 决策 分 析 , 可 以 将 其 银行 和 信用 卡 公 司 通过 Data Mining 
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产品 的 相关 技术 将 庞大 的 顾客 资料 做 筛选 分 析 、 推 滨 及 预测 , 找 出 哪些 是 最 有 贡献 的 顾客 ， 
哪些 是 高 流失 率 族 群 ,或 找 出 一 个 新 的 产品 或 促销 活动 可 能 带 来 的 响应 率 , 如 何在 合适 的 时 
间 提 供 适当 的 产品 及 服务 等 挖掘 功能 。 

数据 挖掘 技术 从 一 开始 就 是 面向 应 用 的 。 它 不 仅 是 面向 特定 数据 库 的 简单 检索 查询 调 
用 ,而 且 要 对 这 些 数据 进行 微观 、 中 观 乃 至 宏观 的 统计 、 分 析 、 综 合 和 推理 ,以 指导 实际 问 
题 的 求解 ,试图 发 现 事件 间 的 相互 关联 ,甚至 利用 已 有 的 数据 对 未 来 的 活动 进行 预测 。 
这 样 一 来 ,就 把 人 们 对 数据 的 应 用 ,从 低层 次 的 末端 查询 操作 ,提高 到 为 各 级 经 营 决策 者 
提供 决策 支持 。 这 种 需求 驱动 力 , 比 数据 库 查 询 更 为 强大 。 同 时 需要 指出 的 是 ,这 里 所 
说 的 知识 发 现 , 不 是 要 求 发 现 放 之 四 海 而 丝 准 的 真理 ,也 不 是 要 去 发 现 如 新 的 自然 科学 
定理 和 纯 数 学 公式 ,更 不 是 什么 机 器 定理 证 明 。 所 有 发 现 的 知识 都 是 相对 的 ,是 有 特定 
前 提 和 约束 条 件 ,面向 特定 领域 的 ,同时 还 要 能 够 易于 被 用 户 理 解 , 最 好 能 用 自然 语言 
达 所 发 现 的 结果 。 


1.2 数据 仓库 系统 的 相关 技术 


数据 仓库 系统 中 主要 包括 数据 仓库 .数据 挖掘 .联机 分 析 处 理 (On-Line Analysis 
Processing, OLAP) KDD 和 相关 的 数据 集成 ,数据 标准 化 .数据 仓库 建 模 技术 .数据 挖掘 技 
术 与 方法 .数据 集 市 .可 视 化 技术 .自然 语言 解释 .人 机 交互 ,知识 发 现 与 知识 推理 .网络 集成 


1.2.1 数据 仓库 系统 相关 技术 之 间 的 关系 


1. 数据 仓库 与 数据 挖掘 

数据 仓库 与 数据 挖掘 作为 决策 支持 新 技术 , 近 十 年 来 发 展 迅速 。 数 据 仓 库 和 数据 挖掘 
二 者 相互 结合 共同 发 展 ,又 相互 影响 促进 ,两 者 的 联系 概括 如 下 : 

数据 挖掘 (DM) 和 数据 仓库 (DW) 是 融合 与 互动 发 展 的 。 对 于 数据 挖掘 ,如 果 能 同 数 
据 仓库 协同 工作 , 则 可 以 简化 数据 挖掘 过 程 的 某 些 步骤 ,从 而 大 大 提高 数据 挖掘 的 工作 
效率 。 数 据 仓 库 中 的 数据 是 经 过 预 处 理 的 , 它 清洗 了 原始 数据 中 的 不 规范 数据 ,统一 了 
数据 格式 并 做 了 一 些 必要 的 汇总 ,数据 挖掘 只 需 在 此 基础 之 上 再 做 进一步 的 预 处 理 。 数 
据 挖掘 和 数据 仓库 的 协同 工作 ,是 数据 挖掘 专家 、 数 据 仓库 技术 人 员 和 行业 专家 共同 努 
力 的 成 果 , 更 是 广大 渴望 从 数据 库 “ 奴 隶 ”* 到 数据 库 “ 主 人 ”转变 的 企业 最 终 用 户 的 通途 。 
一 方面 ,可 以 迎合 和 简化 数据 挖掘 过 程 中 的 重要 步骤 ,提高 数据 挖掘 的 效率 和 能 力 , 确 保 
数据 挖掘 中 数据 来 源 的 广泛 性 和 完整 性 ; 另 一 方面 ,数据 挖掘 技术 已 经 成 为 数据 仓库 应 
用 中 极为 重要 和 相对 独立 的 方面 和 工具 。 若 将 数据 仓库 比 作 矿坑 ,DM 就 是 深入 矿坑 采 
矿 的 工作 。 毕 竞 DM 不 是 一 种 无 中 生 有 的 魔术 ,也 不 是 点 石 成 金 的 炼金 术 , 若 没有 足够 
丰富 完整 的 数据 ,是 很 难 期 待 DM 能 挖掘 出 什么 有 意义 的 信息 。 要 将 庞大 的 数据 转换 成 
为 有 用 的 信息 ,必须 先 有 效率 地 收集 信息 。 随 着 科技 的 进步 ,功能 完善 的 数据 库 系 统 就 
成 了 最 好 的 收集 数据 的 工具 。 数 据 仓 库 ,简单 地 说 ,就 是 搜集 来 自 其 他 系统 的 有 用 数据 ， 
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存放 在 一 个 整合 的 存储 区 内 。 甚 实 就 是 一 个 经 过 处 理 整 合 , 且 容量 特别 大 的 关系 型 数据 
JE ,用 于 存储 决策 支持 系统 (Decision Support System , DSS) 所 需要 的 数据 , 供 决策 支持 或 
数据 分 析 使 用 。 从 信息 技术 的 角度 来 看 ,数据 仓库 的 目标 是 在 组 织 中 ,在 正确 的 时 间 ,将 
正确 的 数据 交 给 正确 的 人 。 

数据 挖掘 和 数据 仓库 的 目的 和 过 程 不 同 。 许 多 人 对 于 DW 和 DM 时 常 混淆 ,不知 如 何 
分 辨 。 其 实 ,数据 仓库 是 数据 库 技术 的 一 个 新 主题 ,利用 计算 机 系统 帮助 我 们 操作 、 计 算 和 
思考 ,让 作业 方式 改变 ,决策 方式 也 跟着 改变 。 数 据 仓 库 本 身 是 一 个 非常 大 的 数据 库 , 它 存 
储 着 由 组 织 作业 数据 库 中 整合 而 来 的 数据 ,特别 是 由 事务 处 理 系统 OLTP (On-Line 
Transaction Processing,OLTP) 所 得 来 的 数据 。 将 这 些 整合 过 的 数据 置 放 于 数据 仓库 中 ， 
决策 者 则 可 以 利用 这 些 数 据 作 决策 ;但 是 ,这 个 转换 及 整合 数据 的 过 程 , 是 建立 一 个 数据 仓 
库 最 大 的 挑战 。 因 为 将 作业 中 的 数据 转换 成 有 用 的 策略 性 信息 是 整个 数据 仓库 的 重点 。 综 
上 所 述 ,数据 仓库 应 该 具有 这 些 数据 : 整合 性 数据 (Integrated Data) .详细 和 汇总 性 的 数据 
(Detailed and Summarized Data) 历史 数据 .解释 数据 的 数据 。 从 数据 仓库 挖掘 出 对 决策 有 
用 的 信息 与 知识 ,是 建立 数据 仓库 与 使 用 数据 挖掘 的 最 大 目的 ,两 者 的 本 质 与 过 程 不 同 。 换 
句 话说 ,数据 仓库 应 先行 建立 完成 ,数据 挖掘 才能 有 效率 地 进行 ,因为 数据 仓库 本 身 所 含 数 
据 是 干净 (不 会 有 错误 的 数据 挨 杂 其 中 ) 完备 且 经 过 整合 的 ,因此 两 者 关系 可 解读 为 数据 挖 
掘 是 从 数据 仓库 中 找 出 有 用 信息 的 一 种 过 程 与 技术 。 

一 方面 ,数据 仓库 为 数据 挖掘 提供 了 更 好 更 广泛 的 数据 源 。 数 据 仓库 中 集成 和 存储 着 
来 自 异 质 信息 源 的 数据 ,而 这 些 信息 源 本 身 就 可 能 是 一 个 规模 庞大 的 数据 库 。 同 时 数据 仓 
库存 储 了 大 量 的 、 长 时 间 的 历史 数据 ,可 以 用 来 进行 数据 的 长 期 趋势 分 析 , 为 决策 者 的 长 期 
决策 行为 提供 支持 。 数 据 仓库 中 数据 在 时 间 轴 上 的 纵深 性 是 数据 挖掘 不 能 回避 的 难点 问题 
之 一 。 数 据 仓库 为 数据 挖掘 提供 了 新 的 支持 平台 。 数 据 仓库 的 发 展 不仅 为 数据 挖掘 开辟 了 
新 的 空间 ,并且 对 数据 挖掘 技术 提出 了 更 高 的 要 求 。 作 为 数据 挖掘 的 对 象 ,数据 仓库 技术 的 
产生 和 发 展 为 数据 挖掘 技术 开辟 了 新 的 战场 ,提出 了 新 要 求 和 挑战 。 数 据 仓库 的 体系 结构 
努力 保证 查询 和 分 析 的 实时 性 。 数 据 仓 库 一 般 设 计 成 只 读 方式 ,数据 仓库 的 更 新 由 专门 一 
套 机 制 保证 ,数据 仓库 对 查询 的 强大 支持 使 数据 挖掘 效率 更 高 。 数 据 仓库 为 更 好 地 使 用 数 
据 挖掘 工具 提供 了 方便 。 数 据 仓库 的 建立 ,应 充分 考虑 数据 挖掘 的 要 求 。 用 户 可 以 通过 数 
据 仓库 服务 器 得 到 所 需要 的 数据 ,形成 开采 中 间 数 据 库 ,利用 数据 挖掘 方法 进行 开采 ,获得 
知识 。 数 据 仓库 为 数据 挖掘 集成 了 企业 内 各 部 门 全 面 的 、 综 合 的 数据 ,数据 挖掘 要 面 对 的 是 
关系 更 复杂 的 企业 全 局 模式 的 知识 发 现 ,数据 仓库 机 制 能 够 大 大 降低 数据 挖掘 的 障碍 ,一 般 
进行 数据 挖掘 要 花 大 量 的 精力 在 数据 准备 阶段 。 数 据 仓库 中 的 数据 已 经 被 充分 收集 起 来 进 
行 了 整理 、 合 并 ,并 且 有 些 还 进行 了 初步 的 分 析 处 理 。 这 样 ,数据 挖掘 的 注意 力 能 够 更 集中 
于 核心 处 理 阶 段 。 另 外 ,数据 仓库 中 对 数据 不 同 粒 度 的 集成 和 综合 ,能 更 有 效 地 支持 多 层 
次 、 多 种 知识 的 开采 。 

另 一 方面 ,数据 挖掘 为 数据 仓库 提供 了 更 好 的 决策 支持 。 高 层 决策 要 求 系统 能 够 提供 
更 高 层次 的 决策 辅助 信息 ,而 基于 数据 仓库 的 数据 挖掘 能 更 好 地 满足 高 层 战略 决策 的 要 求 。 
数据 挖掘 对 数据 仓库 中 的 数据 进行 模式 抽取 和 知识 发 现 ,从 数据 仓库 中 揭示 出 对 企业 有 潜 
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在 价值 的 规律 ,形成 知识 ,为 知识 管理 提供 内 容 , 在 知识 管理 中 起 到 中 流 碟 柱 的 作用 。 这 些 
是 数据 仓库 所 不 能 提供 的 。 数 据 挖掘 对 数据 仓库 的 数据 组 织 提出 了 更 高 的 要 求 。 数 据 仓库 
作为 数据 挖掘 的 对 象 , 要 为 数据 挖掘 提供 更 多 .更 好 的 数据 。 其 数据 的 设计 、` 组 织 都 要 考虑 
到 数据 挖掘 的 要 求 。 数 据 挖掘 还 为 数据 仓库 提供 广泛 的 技术 支持 。 数 据 挖掘 的 可 视 化 技 
AR .统计 分 析 技 术 等 都 为 数据 仓库 提供 了 强 有 力 的 技术 支持 。 

总 之 ,数据 仓库 在 纵向 和 横向 都 为 数据 挖掘 提供 了 更 广阔 的 活动 空间 。 数 据 仓库 完成 
数据 的 收集 、 集 成 .存储 、 管 理 等 工作 ,为 数据 挖 握 准备 了 经 过 初步 加 工 的 数据 ,使 得 数据 挖 
掘 能 更 专注 于 知识 的 发 现 。 又 由 于 数据 仓库 所 具有 的 新 特点 ,对 数据 挖掘 技术 提出 了 更 高 
的 要 求 。 另 一 方面 ,数据 挖掘 为 数据 仓库 提供 了 更 好 的 决策 支持 ,同时 促进 了 数据 仓库 技术 
的 发 展 。 可 以 说 ,要 充分 发 挥 数 据 挖掘 和 数据 仓库 技术 的 潜力 ,就 必须 将 二 者 有 机 地 结合 
起 来 。 

2. KDD 与 数据 挖掘 的 关系 

KDD 是 决策 技术 不 可 缺少 的 过 程 ,也 是 数据 仓库 系统 不 可 缺少 的 过 程 。Usama M. 
Fayyad 等 专家 对 KDD 定义 为 : 它 是 识别 有 效 的 、 新 颖 的 、 潜 在 的 和 最 终 可 以 理解 模式 的 非 
平凡 过 程 。 经 过 数据 挖掘 之 后 的 重要 任务 就 是 KDD 的 过 程 。 曾 经 有 的 学 者 将 数据 挖掘 、 
数据 仓库 .KDD 作为 数据 仓库 系统 的 三 部 曲 , 缺 一 不 可 。 有 的 学 者 认为 数据 挖掘 和 KDD 是 
同一 个 概念 ,但 有 的 学 者 认为 它们 之 间 存 在 差异 。 从 技术 角度 看 ,数据 挖掘 是 从 大 量 的 、 不 
完全 的 、 有 噪声 的 模糊 的 、 随 机 的 实际 数据 中 ,提取 隐 含 的 、 先 前 未 知 的 并 有 潜在 价值 的 信 
息 的 非 平凡 过 程 。 知 识 发 现 是 从 数据 库 中 发 现 知识 的 全 部 过 程 ,包括 收集 原始 数据 ,数据 清 
理 数据 集成 .数据 仓库 .数据 选择 、 数 据 变 换 、 数 据 预 处 理 、 数 据 挖掘 、 建 立 模型 .模式 评估 、 
知识 表示 。 数 据 挖掘 是 全 部 过 程 的 一 个 特定 的 、 关 键 步骤 ,是 指 应 用 特定 的 算法 从 数据 中 提 
取 模 式 。KDD 一 般 过 程 如 图 1. 1 所 示 。 
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图 1.1 KDD 过 程 示意 图 


KDD 主要 由 以 下 步骤 组 成 : 

C1) 数据 预 处 理 ”消除 噪声 或 不 一 致 数据 ; 

(2) 数据 组 织 与 集成 ”多 种 数据 源 可 以 融合 为 一 体 进 行 异 构 数 据 的 整合 ; 

(3) 数据 选择 ”从 数据 库 中 检索 分 析 与 任务 相关 的 数据 ; 

(4) 数据 变换 ”将 数据 变换 或 统一 成 适合 挖掘 的 形式 ,比如 ,有 的 要 变 成 逻辑 形式 的 数 
据 , 有 的 数据 库 要 转化 成 逻辑 数据 库 ; 

(5) 数据 挖掘 ”按照 主题 要 求 , 提 出 挖掘 任务 和 基本 步骤 ,使 用 智能 手段 ,从 大 量 数据 
(信息 ) 中 找 出 频繁 出 现 的 规律 性 事物 , 即 提取 数据 模式 ; 

(6) 模式 评估 ”根据 某 种 兴趣 度 度量 ,如 支持 度 、 可 信 度 等 ,识别 表示 知识 价值 的 模式 ; 

(7) 知识 表示 ”使 用 可 视 化 和 知识 表示 方法 ,展现 与 描述 挖掘 的 信息 和 知识 。 

还 有 很 多 与 数据 挖掘 和 KDD 相近 或 相关 的 术语 ,如 数据 分 析 (Data Analysis) .数据 融 
4 (Data Fusion) ,数据 的 标准 化 / 归 一 化 、 多 智能 体系 统 (Multi-Agent System, MAS) .决策 
支持 系统 、 智 能 决策 支持 系统 (Intelligent Decision Support System,IDSS) 及 群 决策 支持 系 
统 (Group Decision Support System,GDSS) 等 。 


3. OLAP 与 数据 挖掘 的 关系 

联机 分 析 处 理 是 针对 特定 问题 的 联机 数据 访问 和 分 析 。 通 过 对 信息 ( 维 数据 ) 的 多 种 可 
能 的 观察 形式 进行 快速 .稳定 一 致 和 交互 性 的 存 取 ,人 允许 管理 决策 人 员 对 数据 进行 深入 观 
ZX. OLAP 委员 会 对 联机 分 析 处 理 的 定义 为 : 使 分 析 人 员 、 管 理 人 员 或 执行 人 员 能 够 从 多 
种 角度 对 从 原始 数据 中 转化 出 来 的 能够 真正 为 用 户 所 理解 的 ,并 真实 反映 企业 维特 性 的 信 
息 进行 快速 一致, 交互 的 存 取 ,从 而 获得 对 数据 的 更 深入 了 人 解 的 一 类 软件 技术 。 典 型 的 
OLAP 系统 体系 结构 如 图 1.2 所 示 。 


| | | 
OLAP 多 维 引擎 查询 工具 

| | | 1 
数据 仓库 | sama | 分 析 工具 

| l T ! 
数据 库 | | 立方 体 计算 | | 报表 工具 
源 数 据 层 | 数据 仓库 层 | OLAP 服 务 器 层 | 应 用 层 


图 1.2 典型 的 OLAP 系统 体系 结构 


整个 OLAP 系统 可 采用 B/S 模式 ,大 致 分 为 四 层 : 第 一 层 是 源 数据 层 ,存储 了 企业 的 
业务 细节 数据 。 第 二 层 是 OLAP 数据 仓库 层 , 数 据 抽取 程序 将 源 数据 按 主题 进行 归纳 整 
理 , 存 人 OLAP 数据 库 中 ,提供 适合 OLAP 分 析 的 详细 、 集 成 ,准确 的 客户 基础 数据 。 第 三 
层 是 OLAP 服务 器 层 , 保 存 了 分 析 所 需要 的 客户 聚集 数据 和 相关 的 元 数据 ,代理 用 户 的 分 
析 请 求 , 获 取 分 析 数 据 并 返回 给 用 户 。 第 四 层 是 应 用 层 , 让 用 户 根据 模型 信息 ,提交 分 析 请 
求 ,然后 将 获得 的 数据 按 用 户 需 要 的 方式 展现 。 

OLAP 和 数据 挖掘 作为 两 种 不 同 的 数据 分 析 工 具 , 存 在 着 许多 不 同 之 处 : 

(1) 是 否 主动 进行 数据 分 析 , 这 是 OLAP 和 数据 挖掘 最 本 质 的 区 别 。OLAP 是 一 种 求 
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进行 数据 分 析 ;而 数据 挖掘 是 一 种 挖掘 性 的 分 析 工 具 , 它 主要 是 利用 各 种 挖掘 算法 主动 地 去 

挖掘 大 量 数据 中 列 涵 的 规律 和 模式 ,主动 地 进行 数据 分 析 。 

(2) 是 否 受 到 用 户 水 平 的 约束 ,OLAP 是 由 用 户 驱 动 的 ,很 大 程度 上 受到 用 户 水 平 的 约 
束 ; 而 数据 挖掘 是 由 数据 驱动 的 ,系统 能 够 根据 数据 本 身 的 规律 自动 发 掘 潜在 的 模式 ,不 受 
用 户 水 平 的 约束 。 

(3) 从 数据 分 析 的 深度 来 看 ,OLAP 位 于 较 浅 的 层次 ;数据 挖掘 能 从 更 深 的 层次 上 发 现 
OLAP 所 不 能 发 现 的 信息 。 

(4) 从 分 析 的 本 质 来 看 ,OLAP 是 首先 建立 一 系列 的 假设 ,然后 通过 OLAP 来 证 实 或 
推翻 这 些 假 设 从 而 得 到 结论 ,本 质 上 是 一 个 演绎 推理 的 过 程 ;而 数据 挖 所 是 依据 数据 特征 采 
用 不 同 的 挖掘 算法 ,在 海量 的 数据 中 主动 发 掘 模型 ,本质 上 是 一 个 知识 归纳 的 过 程 。 


1.2.2 数据 仓库 系统 模式 


数据 仓库 能 为 OLAP 和 数据 挖掘 提供 广泛 和 高 质量 的 分 析 数 据 。 

OLAP ,数据 挖掘 和 数据 仓库 的 关系 十 分 紧密 。 数 据 仓库 的 建立 解决 了 依据 主题 进行 
数据 存储 的 问题 ,提高 了 数据 的 存 取 速 度 ;而 OLAP 分 析 与 数据 挖掘 构成 了 数据 仓库 的 表 
现 层 ,将 数据 仓库 中 的 数据 通过 不 同 的 维和 指标 ,灵活 地 展现 出 来 ,提高 了 数据 的 展现 能 力 ， 
进而 提高 了 分 析 数 据 的 能 力 与 发 现 潜在 知识 的 能 力 。 

OLAP 对 数据 仓库 具有 很 强 的 依赖 性 。 没 有 数据 仓库 ,OLAP 将 很 难 实现 ;同样 ,在 数 
据 仓 库 选择 主题 时 ,也 要 参考 OLAP 分 析 的 维度 .指标 ,才能 更 好 地 为 信息 展示 服务 ,为 决 
策 者 进行 业务 分 析 提 供 依据 。 数 据 仓 库 与 OLAP 的 关系 是 互补 的 ,现代 OLAP 系统 一 般 以 
数据 仓库 作为 基础 , 即 从 数据 仓库 中 抽取 详细 数据 的 一 个 子 集 并 经 过 必要 的 聚集 存储 到 
OLAP 存储 器 中 供 前 端 分 析 工 具 读 取 。 在 数据 仓库 应 用 中 ,OLAP 应 用 一 般 是 数据 仓库 应 
用 的 前 端 工具 ,同时 OLAP 工具 还 可 以 和 数据 挖 气 工具、 统计 分 析 工 具 配 合 使 用 ,增强 决策 
分 析 功 能 。 

虽然 数据 仓库 .OLAP 和 数据 挖掘 是 三 种 不 同 的 信息 技术 ,但 其 目标 却 都 是 辅助 决策 ， 
所 以 它们 之 间 存 在 着 千 丝 万 缕 的 联系 。 数 据 仓 库 拥 有 丰富 的 数据 ,但 只 有 通过 OLAP 和 数 
据 挖 掘 才能 使 数据 变 成 有 价值 的 信息 ,才能 体现 出 数据 仓库 的 辅助 决策 功能 ,和 否则 永远 都 是 
数据 丰富 而 信息 匮乏 ;反之 ,尽管 OLAP 和 数据 挖掘 并 不 一 定 要 建立 在 数据 仓库 的 基础 之 
上 ,但 数据 仓库 却 能 提高 两 者 的 工作 效率 ,让 两 者 有 更 大 的 发 展 空间 。 对 于 OLAP ,无 论 其 
采用 何 种 存储 方式 ,数据 最 终 都 要 转换 成 多 维 数据 模型 才能 进行 数据 分 析 ,而 数据 仓库 中 的 
星 型 模型 和 雪花 模型 都 适用 于 OLAP 的 多 维 分 析 。 

因此 ,在 比较 成 熟 的 数据 仓库 系统 中 ,数据 仓库 .OLAP 和 数据 挖掘 往往 融 为 一 个 以 数 
据 仓库 为 基础 ,与 OLAP 和 数据 挖掘 相辅相成 分 析 数 据 的 模式 。 其 中 ,数据 仓库 负责 把 所 
需要 的 数据 按 面 向 主题 和 有 助 于 OLAP 和 数据 挖掘 分 析 的 格式 进行 存储 ,并 对 原始 数据 进 
行 预 处 理 。OLAP 和 数据 挖掘 则 负责 从 不 同 的 角度 和 层次 对 经 过 预 处 理 的 数据 进行 分 析 ， 
挖掘 出 有 用 的 模式 。 


通用 的 数据 仓库 系统 如 图 1. 3 所 示 ,其 包括 四 个 部 分 。 
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图 1.3 通用 的 数据 仓库 系统 


(1) 数据 源 是 数据 仓库 系统 的 基础 ,是 整个 系统 的 数据 源泉 。 通 常 包 括 企 业内 部 信息 
和 外 部 信息 。 内 部 信息 包括 存放 于 关系 数据 库 管理 系统 (Relational DataBase Management 
System, RDBMS) 中 的 各 种 业务 处 理 数据 和 各 类 文档 数据 。 外 部 信息 包括 各 类 法 律 法 规 、 
市 场 信息 和 竞争 对 手 的 信息 等 。 

(2) 数据 的 存储 与 管理 是 整个 数据 仓库 系统 的 核心 和 关键 。 数 据 仓 库 的 组 织 管 理 方式 
决定 了 它 有 别 于 传统 数据 库 , 同 时 也 决定 了 其 对 外 部 数据 的 表现 形式 。 要 决定 采用 什么 产 
品 和 技术 来 建立 数据 仓库 的 核心 , 则 需要 从 数据 仓库 的 技术 特点 着 手 分 析 。 针 对 现 有 的 业 
务 系统 数据 ,进行 抽取 清理 和 有 效 集成 ,并 按照 主题 进行 组 织 。 数 据 仓库 按照 数据 的 覆盖 
范围 可 以 分 为 企业 级 数据 仓库 和 部 门 级 数据 仓库 (通常 称 为 数据 集 市 ) 。 

(3) OLAP 服务 器 实现 对 需要 分 析 的 数据 的 有 效 集成 , 按 多 维 模型 予以 组 织 , 以 便 进行 
多 角度 、 多 层次 的 分 析 , 并 发 现 趋势 。 其 具体 实现 可 以 分 为 关系 OLAP(Relational OLAP, 
ROLAP) ,多 维 OLAP (Multi-dimensional OLAP, MOLAP) 和 混合 型 OLAP(Hybrid OLAP, 
HOLAP)。ROLAP 基本 数据 和 聚合 数据 均 存 放 在 RDBMS 之 中 ,MOLAP 基本 数据 和 聚 
合 数 据 均 存放 于 多 维 数据 库 中 ,HOLAP 基本 数据 存放 于 RDBMS 之 中 ,聚合 数据 存放 于 多 
维 数据 库 中 。 

(4) 前 端 工 具 包括 各 种 数据 报表 工具 ,数据 查询 工具 ,数据 分 析 工 具 和 数据 挖掘 工具 
等 。 其 中 基于 OLAP 和 数据 挖掘 的 前 端 工具 分 别 是 验证 型 工具 和 发 掘 型 工具 的 代表 。 

综 上 所 述 ,如 果 运 用 系统 工程 思想 理解 通用 的 数据 仓库 系统 ,应 该 将 其 划分 为 数据 采集 
( 子 ) 系 统 、 数 据 仓库 ( 子 ) 系 统 .数据 挖掘 ( 子 ) 系 统 。 数 据 采集 ( 子 ) 系 统 的 主要 内 容 包 括 数 据 
采集 对 象 的 确立 数据 集成 技术 与 方法 、 数 据 预 处 理 技术 与 方法 、 基 于 样本 数据 划分 的 通用 
数据 挖掘 模型 系统 ` 数 据 采集 系统 中 的 中 间 件 技术 等 主要 内 容 。 数 据 仓 库 ( 子 ) 系 统 的 主 
要 内 容 包括 多 维 数据 分 析 与 组 织 ` 多 维 数据 模型 与 结构 .面向 主体 数据 库 ( 数 据 仓 库 ) 的 
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建立 方法 等 主要 内 容 。 数 据 挖掘 系统 的 主要 内 容 包 括 预测 模型 .关联 规则 (快速 发 现 知 
识 ) 模 型 . 聚 类 分 析 、` 粗 糙 集 .遗传 算法 模型 .AHP 模型 .基于 模糊 理论 .灰色 系统 理论 等 
模型 系统 。 


1.3 数据 仓库 系统 中 多 维 数据 组 织 的 形式 化 定义 与 描述 


国内 外 专家 对 数据 仓库 系统 (Data Warehouse System,DWS) 的 定义 有 几 十 种 ,特点 和 
内 容 各 有 千秋 。 但 是 ,作者 在 研究 与 实践 中 发 现 , 一 个 完善 的 数据 仓库 系统 可 以 按照 树 的 层 
次 分 层 来 表达 ,其 表达 方法 清晰 且 逻 辑 推 理 准确 ,根据 数据 结构 中 关于 数据 的 组 织 与 存储 的 
形式 化 定义 进行 描述 ,可 以 帮助 人 们 理解 复杂 系统 的 组 织 结构 及 其 各 个 层次 间 的 相关 关联 ， 
运用 这 种 形式 化 定义 来 描述 知识 是 目前 较 好 的 一 种 方法 。 依 此 类 推 ,数据 仓库 系统 的 定义 
中 一 定 包含 数据 挖掘 系统 .KDD 及 各 个 子 系统 (体系 ) 相 关 的 内 容 。 另 外 ,根据 国内 外 专家 
们 对 数据 仓库 与 数据 挖掘 系统 的 研究 ,我 们 发 现在 建立 一 个 复杂 的 数据 仓库 和 数据 挖掘 系 
统 之 前 ,必须 先 引 和 面向 某 全 局 (行业 ) 业 务 领域 的 公共 信息 平台 模式 ,然后 在 该 公共 信息 平 
台 上 再 运用 数据 仓库 机 制 建立 数据 仓库 与 数据 挖掘 系统 ,以 实现 在 公共 信息 平台 基础 之 上 

为 了 帮助 初学 者 记忆 和 理解 数据 仓库 系统 的 定义 与 内 涵 , 下 面 将 介绍 作者 在 多 年 的 研 
究 与 开发 中 ,提出 运用 形式 化 定义 来 描述 一 个 大 的 ,综合 的 复杂 系统 的 方法 。 该 方法 通过 形 
式 化 定义 其 每 一 层 的 概念 ,使 整个 系统 的 逻辑 结构 清晰 ,并 且 容 易 理 解 和 掌握 。 按 照 形 式 化 
定义 与 知识 推理 方式 ,对 数据 仓库 系统 进行 定义 。 作 为 一 种 具有 普遍 适用 性 和 灵活 性 的 多 
维 数据 组 织 的 形式 化 定义 与 知识 描述 方法 ,该 方法 允许 维 的 层次 树 中 从 根 节点 到 叶子 节点 
具有 不 同 的 长 度 , 且 同 一 层次 中 的 不 同 节点 可 以 具有 不 同 的 描述 属性 。 这 一 研究 成 果 将 推 
动 数据 仓库 建 模 技术 的 发 展 , 成 为 一 种 有 效 的 数据 仓库 建 模 技 术 和 对 具有 复杂 多 层次 结构 
的 多 维 数据 进行 集成 的 理想 方法 。 

下 面 以 某国 际 航运 中 心 公 共 信 息 平台 的 建设 为 例 介绍 形式 化 定义 与 知识 描述 。 某 航运 
中 心 业务 分 布 所 对 应 的 公共 信息 平台 如 图 1.4 所 示 。 

该 国际 航运 中 心 公 共 信 息 平台 的 业务 主要 有 六 个 组 成 部 分 : 3G_MIS 集成 . 异 构 数据 
集成 .数据 仓库 系统 、 业 务 支撑 体系 、 应 用 服务 体系 、 预 测 与 决策 (应 用 工具 系统 ) ,将 这 六 个 
主要 组 成 部 分 作为 业务 的 第 一 层面 ;而 第 二 层面 的 主要 内 容 是 以 第 一 层面 的 内 容 而 展开 的 。 
具体 解释 如 下 : 

(1) 第 一 部 分 的 解释 。 将 3G_MIS 集成 为 第 一 层 ;3G_MIS 集成 的 第 二 层 主要 包括 全 
球 定位 系统 (Global Positioning System, GPS) ,通用 分 组 无 线 业 务 (General Packet Radio 
Service. GPRS) 全 球 移动 通信 系统 (Global System for Mobile Communications, GSM), 
地 理 信 息 系 统 (Geographic Information System, GIS) 和 管理 信息 系统 (Management 
Information System,MIS) 等 主要 内 容 ;而 其 第 三 层 的 内 容 是 以 第 二 层 所 包含 的 内 容 而 展开 
的 ,如 GPS 的 主要 内 容 包 括 GPS 的 种 类 及 功能 等 内 容 ;GPRS 是 一 种 基于 GSM 系统 的 无 
线 分 组 交换 技术 ,提供 端 到 端的 、 广 域 的 无 线 IP 连接 的 高 速 数 据 处 理 技术 ,以 “分 组 ”的 形式 
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图 1.4 国际 航运 中 心 公共 信息 平台 


传送 资料 到 用 户 手 上 ;GSM 包括 GSM 900、GSM 1800 以 及 GSM 1900 等 几 个 频段 。GIS 
是 随 着 地 理科 学 .计算 机 技术 .遥感 技术 和 信息 科学 的 发 展 而 发 展 起 来 的 一 个 学 科 ,GIS 软 
件 主要 包括 ARC/INFO, GENAMAP, SPANS, MapInfo, ERDAS, Microstation 等 ; MIS 是 
AS ALTE EL H KR i HG MAY le HF HA BE «IF FB WE 7 E E AE FS 
加 工 、 维 护 和 管理 使 用 的 应 用 系统 ,包括 MIS 开发 方法 .开发 工具 .开发 语言 及 应 用 范 
围 等 。 

(2) 第 二 部 分 的 解释 。 异 构 数 据 集成 主要 包括 各 个 业务 部 门 的 源 数据 的 一 致 化 和 标准 
化 的 处 理 。 由 图 1.4 所 示 的 例子 可 知 : 将 异 构 数 据 集 成 的 具体 内 容 作 为 本 系统 的 第 一 层 ， 
具体 内 容 是 : 东北 亚 各 个 港口 业务 相关 信息 .货主 企业 信息 、 监 管 部 门 信息 、 金 融 结算 信息 、 
运输 部 门 信息 .其 他 相关 部 门 信息 :其 第 二 层 的 信息 分 别 是 第 一 层 各 个 实体 的 下 一 层 内 容 ， 
如 东北 亚 各 个 港口 业务 相关 信息 可 能 是 大 连 港 、 营 口 港 ,锦州 港 各 自 的 下 一 层 业 务 机 构 信 
息 ; 而 大 连 港 所 对 应 的 第 三 层 可 为 大 连 港口 的 主要 业务 分 工 , 例 如 油 品 /液体 化 工 品 码头 、 集 
装 箱 码头 .汽车 码头 .港口 增值 码头 等 业务 。 油 品 /液体 化 工 品 码头 主要 提供 包括 原油 、 成 品 
油 以 及 液体 化 工 品 的 装卸 和 存储 服务 。 上 市 集团 拥有 17 个 油 品 .液体 化 工 品 泊位 ,其 中 包 
括 全 国 最 大 的 30 万 吨 级 原油 码头 (可 靠 泊 高 达 375 000 吨 级 超大 型 油轮 ), 以 及 容量 超过 
300 万 立方 米 的 油 品 储 钠 。 油 品 码头 年 吞吐 能 力 超过 5700 万 吨 。 汽 车 码头 拥有 2 个 泊位 
和 堆 场 , 堆 场面 积 为 23 万 平方 米 , 年 吞吐 能 力 37 万 辆 汽车 ,可 靠 泊 全 球 最 大 的 汽车 滚 装 船 。 
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该 业务 依托 东北 汽车 工业 基地 ,将 得 以 莲 勃 发 展 。 港 口 增值 码头 主要 提供 集装箱 码头 服务 

及 多 项 集装箱 物流 服务 ,包括 集装箱 多 式 联运 、 公 路 运输 、 船 运 及 经 营 集 装 箱 堆 存 仓储 、 船 
舶 代理 与 货物 代理 以 及 保税 物流 园 。 截 至 2007 年 底 , 上 市 集团 通过 合资 企业 经 营 着 13 个 
专业 集装箱 泊位 ,年 吞吐 能 力 为 385 万 标 箱 (TEU)。 到 2008 年 年 中 ,将 有 另外 两 个 集装箱 
泊位 投入 试 运营 (每 个 泊位 的 吞吐 能 力 为 600 000(TEU))。 共 有 80 余 条 集装箱 班轮 航线 
通达 日 本 、 欧 洲 、 地 中 海 、 美 国 等 世界 各 地 。 因 篇 幅 原 因 , 其 他 港口 的 业务 分 布 就 不 一 一 介 
绍 了 。 

(3) 第 三 部 分 的 解释 。 数 据 仓 库 系 统 作为 公共 信息 平台 机 制 的 模式 即 公共 信息 平台 的 
第 一 层 。 由 于 公共 信息 平台 作为 全 局 业务 的 总 平台 ,起 到 承上启下 的 作用 ,因此 ,该 平台 系 
统 即 数据 仓库 系统 的 内 容 覆 盖 了 其 他 五 个 方面 的 内 容 。 

(4) 第 四 部 分 的 解释 。 业 务 支撑 体系 作为 第 一 层 的 内 容 , 其 下 一 层 是 相关 业务 的 应 用 
工具 与 软件 系统 等 内 容 。 

O 第 五 部 分 的 解释 。 应 用 服务 体系 作为 第 一 层 的 内 容 , 其 下 一 层 的 内 容 是 : 各 应 用 
服务 体系 之 间 的 协同 管理 模式 、 相 互 往来 的 优化 业务 流程 的 实施 、 资 金 流 的 运作 模式 等 
业务 。 

(6) 第 六 部 分 的 解释 。 预 测 与 决策 (应 用 工具 系统 ) 作 为 第 一 层 ,其 下 一 层 的 内 容 包 括 
预测 模型 ,决策 模型 系统 等 应 用 工具 的 选择 。 

根据 图 1.4 所 示 的 数据 仓库 系统 所 包含 的 研究 内 容 的 范围 和 数据 仓库 定义 ,可 知 数据 
仓库 系统 的 内 容 包 括 了 公共 平台 上 的 所 有 相关 研究 内 容 , 因 此 ,数据 仓库 系统 作为 公共 信息 
平台 的 主要 的 、 重 要 的 研究 体系 。 换 句 话 说 ,研究 公共 信息 平台 系统 的 实质 还 是 对 数据 仓库 
体系 进行 深入 细致 的 研究 过 程 。 

为 了 将 公共 信息 平台 系统 进行 清晰 的 定义 引入 计算 机 数据 结构 中 的 形式 化 定义 ,将 本 
国际 航运 中 心 公共 信息 平台 系统 (Common Information Platform System,CIPS) 定 义 为 二 
元 组 : 

CIPS= (CIP_Data,R) 
其 中 : CIP_Data (Common Information Platform Data) 代表 国际 航运 中 心 公 共 信 息 平台 数 
据 集 合 ;R 是 CIP_Data 上 的 关系 集合 。 

因 CIP_Data 较 复 杂 ,首先 介绍 R, 作 为 CIP_Data 上 的 关系 集合 的 含义 是 界定 CIPS 各 
个 系统 的 关联 : R=( 二 3G_MIS(Un_Data_In、 各 个 部 门 业 务 数据 集成 ) ,数据 整合 与 标准 
化 二 ,二 数据 整合 与 标准 化 , DW 建立 二 , < DW 基础 , OLAP (或 DSS, DM, KDD, 
Predict) >). 

再 定义 国际 航运 中 心 公 共 信 息 平台 的 数据 集合 CIP_Data。 如 图 1. 4 所 示 ,将 公共 信息 
平台 数据 系统 CIP_Data 定义 为 六 个 组 成 部 分 的 集合 , 即 

CIP_Data = {3G_MIS(1. 1), Un_Data_In( 异 构 数 据 集成 ) (1. 2), DWS (Data 
Warehouse System ,数据 仓库 系统 )(1.3),Bu_Su( 业 务 支撑 体系 )(1. 4),Ap_Se( 应 用 服务 
体系 )(1.5),Mechanism_Tool([ 预测 与 决策 ] 应 用 工具 )} (1. 6)} 

也 就 是 说 ,将 该 公共 信息 平台 视 为 一 棵 层次 树 , 如 果 将 公共 平台 的 数据 总 称 即 CIP_ 
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Data 看 作 是 该 层次 树 的 树 根 , 则 将 CIP_Data 的 六 个 组 成 部 分 内 容 {3G_MIS (1.1), Un_ 
Data_In (1.2),DWS (1.3),Bu Su (1.4) ,Ap_Se (1. 5) ,Mechanism_Tool (1.6)} 看 成 是 该 
层次 树 中 第 一 层 节 点 的 内 容 ; 再 按照 树 的 层次 分 别 将 各 个 节点 内 容 进行 下 一 层 的 划分 ,分 别 
作为 第 二 层 节点 的 内 容 , 以 此 类 推 逐 层 进 行 定 义 , 直 到 发 现 树 的 叶子 节点 为 止 。 

说 明 : 

(1) 以 下 的 : :三 的 含义 是 “被 定义 为 >, 如 A:: 王 已 的 含义 是 “公式 A 被 定义 为 B”, 换 句 
话说 ,公式 A 被 定义 为 B 的 内 容 。 如 A::=BIC 的 含义 是 “公式 A 被 定义 B 或 者 C”, 换 句 
话说 ,公式 A 被 定义 为 B 的 内 容 或 者 C 的 内 容 。 

(2) 以 下 的 一 的 含义 是 “产生 式 的 记号 ?, 如 A 一 B 的 含义 是 “A 产生 B”, 换 句 话 说 ,如 
果 产 生 式 的 前 件 A 成 立 则 产生 B 这 个 后 件 , 因 此 ,A 一 B 作为 一 条 规则 即 知识 。 如 A>B|C 
的 含义 是 “A 产生 B 或 者 C 规则 (知识 )”。 再 如 :“A 一 BIC D ”的 含义 是 “A 产生 B 或 者 
A 产生 C 与 D” 规 则 (知识 ), 以 此 类 推 ,可 以 运用 定义 式 和 产生 式 定义 某 种 语言 ,同时 ,也 界 
定 该 语言 的 范围 。 该 定义 方法 是 目前 形式 化 定义 常用 的 方法 。 

(3) 规则 集合 : :三 乔 姆 斯 基 方 法 ; 乔 姆 斯 基 方法 一 0 型 文法 |1 型 文法 |2 型 文法 |3 型 文 
法 (x 本 内 容 请 参考 计算 机 专业 技术 的 编译 技术 、 方 法 与 原理 相关 书籍 )。 

按照 上 述 的 定义 和 树 的 层次 ,可 将 第 一 层 的 节点 内 容 划 分 为 如 下 的 第 二 层 节点 内 容 : 

(1. 1)3G_MIS:: =GPS|GPRS|GSM|GIS| MIS (1. 1. 1-1. 1. 4) 

(1.2)Un_Data_In !!=Port|Enterprise| Monitor| Financial | Transport| Others (1. 2. 
1-1, 2.6) 

(1.3) DWS!:! =HDB(1. 3. 1) | RDBMS(1. 3. 2) | Applic(1. 3. 3) | Dtreat (1. 3. 4) | DM 
(1.3.5) |KDD(1. 3. 6)|DSS(1. 3. 7)| I. (1. 3:83] I. (1.3.9) 

{DWS 数据 仓库 系统 的 内 容 包括 九 个 方面 的 内 容 

HDB(1. 3.1); Historical Data Basel 历史 数据 库 ]; 

RDBMS(1. 3. 2): Relation Data Base Management System [关系 数据 库 管理 系统 ]; 

Applic(1. 3. 3); Application Program or Procedure [应 用 程序 或 者 完成 某 功能 的 过 程 ]; 

Dtreat(1. 3. 4) : Data treat [数据 处 理 ] ; 

DM(1. 3.5): Data Mining [数据 挖掘 ]; 

KDD(1. 3.6): Knowledge Discovery in Data Bases [数据 库 中 知识 发 现 ]; 

DSS(1. 3.7): Decision support System [决策 支持 系统 ]; 

I[. (1. 3.8): Information Interface [信息 界面 ]; 

I. (1.3.9): Infrastructure[ 基础 设施 ])} 

(1.4) Bu Su ::=ID Check|User|Cash|Safety (1. 4. 1-1. 4. 4) 

(1.5)Ap_Se::=International_Trade| Logistic_Ma | Audit | Financial_In| Port_Call | 
Workflow (1.5.1-1.5.6) 

(1. 6)Mechanism_Tool ::=Network|DB_Type|Constrain Condition (1. 6. 1-1. 6. 3) 

以 此 类 推 ,按照 树 的 层次 ,可 以 逐 层 向 下 进行 定义 。 

为 减少 篇 幅 , 以 下 部 分 仅 对 具有 代表 性 的 数据 仓库 系统 进行 形式 化 定义 与 知识 描述 : 
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将 数据 仓库 系统 定义 为 二 元 组 即 
DWS=(DW_Datacollect .R) 

其 中 ,R 是 DW_Datacollect LWW KARA. R= (< ÄRA DBS, FILE, Data, 
DBMS Metadata | ži. 数据 标准 化 二 ,一 标准 化 数据 ,建立 数据 仓库 二 ,一 数据 仓库 机 制 ， 
DM,KDD,DSS>),. 

DW_Datacollect 作为 数据 仓库 系统 所 有 子 系统 的 数据 集合 ,主要 由 以 下 九 元 组 构成 : 

DW_Datacollect::= (HDB, RDBMS, Applic. ,Dtreat, DM,KDD,DSS, [[..].); 
其 中 ， 

。 HDB; History DataBase 历史 数据 库 ; 

e RDBMS: 关系 数据 库 管 理 系统 ; 

。 Applic.: 应 用 程序 ; 

。 Dtreat: Data Treat 数据 处 理 ; 

e DM: 数据 挖掘 ; 

。 KDD: 数据 库 中 知识 发 现 ; 

。 [I : Information Interface 信息 界面 ; 

e |: Infrastructure 基础 设施 。 

而 数据 仓库 系统 的 九 元 组 具体 的 形式 化 定义 和 知识 描述 为 

(1.3.1)HDB::=DBS|File|Datal DBMS| Metadata| Transaction (1.3.1.1-1.3.1.6) 

(1. 3.2) RDBMS:: =DB 种 类 |Platform Tools (1. 3. 2. 1-1. 3. 2. 2) 

(1.3.2.1)DB 种 类 一 Oracle| Sybase | Informix| SQL Server | Microsoft Access | FoxPro 
人 3 

(1. 3. 2. 2)Platform Tools~>Java|. NET | Oracle| Mapinfo| VC++ |VB(1. 3. 2. 2. 1-1. 3. 
2:2:6) 

(1. 3. 3) Applic. : :三 协同 管理 模式 |NOS| 业 务 流程 管理 | 模型 管理 系统 | 各 类 相关 过 
程 | 操作 规程 (1. 3. 3. 1-1. 3. 3. 6) 

(1. 3.4)Dtreat:: = uns 异 构 数据 库 标准 化 | wd 数据 清洗 | 预测 模型 | st 映射 表 集 
# (1. 3. 4. 1-1. 3. 4. 4) 

(1. 3. 5)DM?: = (DM) BRIE | CDM dR AR |(DM) 方 法 | DM) 模型 (1. 3. 5. 1-1. 3. 5. 4) 

(1. 3.5. D (DM) Hig :: =DW 理论 | 决策 理论 | 优化 理论 | 预测 理论 | 多 维 数据 分 析 理 
El 

A. 3. 5.2) (DM) 技 术 一 DB 技术 | 集成 技术 |DW 技术 | 各 类 数学 模型 建立 技术 (1. 3. 5. 
2. 1-1.3..5.2..4) 

(1.3.5.3)(DMD) 方 法 一 DB 中 数据 转 储 方法 |DW 建立 方法 | 各 类 数学 模型 建立 方法 
CL. 3.0.36 1-153.:5.3.:3) 

(1. 3.5.4)C(DM) 模 型 : :三 决策 模型 集合 | 优化 模型 | 预测 模型 | 知识 发 现 模型 (1. 3. 5. 
A, 1-1.3.5. 4. 4) 

(1. 3.5. 1. DDW 理论 一 DB 理论 | 数据 库 理论 | 多 维 数据 建 模 理论 (1. 3. 5. 1. 1. 1-1. 3. 
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一 
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.2) 决 策 理论 : :三 博弈 理论 | 决策 理论 (1. 3.5.1. 2.1-1.3. 5.1.2.2) 
.3) 优 化 理论 :: 三 优化 理论 技术 与 方法 | 优化 模型 (1. 3. 5. 1. 3. 1-1. 3. 5. 


rr 
a 
cn 
= 


= 
= 
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.4) 预 测 理论 :: 王 预测 理论 技术 与 方法 | 预测 模型 (1. 3. 5. 1. 4. 1-1. 3. 5. 


2. 1) 博 弈 理论 一 静态 博弈 | 动态 博弈 | 纳什 均衡 | 零 和 博弈 | 帕 累 托 优势 
2. 2) 决 策 理论 :: 王 确定 DSS 理论 | 不 确定 DSS 理论 | 模糊 DSS 理论 | DSS 
3.2) 优 化 模型 一 运输 路 线 优化 模型 | 影子 价格 | 动态 优化 | 存储 分 配 | … 
.4.2) 预 测 模型 : :== 定量 分 析 模 型 | 定性 分 析 模 型 | 定量 与 定性 相 结合 分 析 模 型 
4 
4 
4 


.2.1) 定 量 分 析 模 型 一 曲线 增长 模型 | 时 间 序 列 模型 | 统计 分 析 模 型 |… 
.2.2) 定 性 分 析 模 型 一 Delphi 方法 | 调查 问卷 法 | … 
.2.3) 定 量 与 定性 相 结合 分 析 模 型 AHP 模型 | Apriori 模型 | 模糊 模型 | 马 


(1.3.5. 
尔 科 夫 模 型 | … 
(1.3.6)KDD:: 王 逻辑 DB| 规 则 集合 | 知识 发 现 模型 (1. 3. 6. 1-1. 3. 6. 3) 
(1. 3. 6. DZ DB 一 知识 (规则 集合 ) 
(1. 3. 6. 3) 知 识 发 现 模型 一 Apriori 模型 1 DM 模型 
(1. 3.7)DSS : := 决策 模型 集合 | DSS FE | 分 析 对 比 (1. 3. 7. 1-1. 3.7.1.3) 
3 
3 
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(1. 3.7.1) 决 策 模型 集合 一 确定 DSS 模型 | 不 确定 DSS 模型 | 模糊 DSS 模型 

(1.3.8) 开 .: :一 人 机 对 话 智能 系统 | 图 形 显示 (1. 3. 8. 1-1. 3. 8. 2) 

(1.3.8.1) 人 机 对 话 智能 系统 -Stuff( 工 作 人 员 )| Administrator | DW 建立 |DM 模型 | 
KDDIDSS| 其 他 需求 (1. 3. 8. 1. 1-1. 3. 8. 1. 7) 

(1. 3. 8. 2) 图 形 显示 一 Stuff 意图 | Administrator 操作 步骤 |1DW 建立 过 程 |DM 模型 | 
KDD 模型 过 程 及 结果 |DSS 过 程 及 结果 | 其 他 需求 的 显示 与 人 机 对 话 (1. 3. 8. 2. 1-1. 
27 

(1.3.9) I. ::=PI. |OI. (1. 3. 9. 1-1. 3.9.2); 其 中 : 

。 PI. (Physical Infrastructure) 物理 层面 的 基础 设施 ; 

。 OI. (Operational Infrastructure) 操 作 层 面 的 基础 设施 。 

(1.3. 9. 1) PI. > APPLI. Program| Procedure Data Structure | NOS (Network Operating 
System) Software | Management Software Data Structure | Hardware | Stuff | Administrator 
Ch le -3 17) 

(1. 3. 9. 2) OI. —> Data Modeling | Management Software | Procedure | Stuff | Administrator 
人 

综 上 所 述 ,可 以 将 图 1.4 的 一 个 多 系统 、 跨 平台 的 数据 仓库 系统 按照 树 的 层次 方法 进行 
逐 层 业务 分 类 ,具体 的 层次 结构 如 图 1.5 所 示 。 


采用 形式 化 定义 的 优点 是 : 对 于 一 个 大 的 复杂 系统 如 数据 仓库 系统 涉及 多 层 多 系统 、 
跨 系 统 ,并 且 数 据 的 形式 属于 多 维 的 ,为 了 清晰 定义 与 描述 该 复杂 系统 ,可 以 运用 树 的 层次 


方法 进行 定义 , 即 利用 形式 化 定义 的 方法 。 
. ]4 。 
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GPRS Enterprise User Logistic_Ma DB_Type 
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GIS Financial Safety Financial_In 
MIS Transport Port_Call 
Others Workflow 
i i i i 1 
HDB (1.3.1) RDBMS(1.3.2) Applic.(1.3.3) Dtreat(1.3.4) KDD (1.3.6) 
| DB 种 类 Platform Tools 一 
DBS i 协同 管理 模式 | | uns 异 构 数 据 库 标准 化 | 知识 (规则 集合) 
File Oracle Java NOS wd 数据 清洗 
Data Sybase NET 业务 流程 管理 预测 模型 
DBMS Infomix Oracle 模型 管理 系统 st 映射 表 集合 
Metadata SQL Server Mapinfo 各 类 相关 过 程 Apriori BE 
Transaction MS Access VC++ 操作 规程 H 
FoxPro VB 
DM (1.3.5) DSS (1.3.7) I. (1.3.8) L (1.3.9) 
l œ~ = 
决策 模型 集合 人 机 对 话 智能 系统 图 形 显示 PI. Ol. 
DSS F £ i 
分 析 对 比 Stuff Stuff 意 图 APPLI. Program Data Modeling 
Administrator | | Administrator 操 作 步 又 Procedure Data Structure | | Management 
DW 建立 DW 建立 过 程 NOS Software Software 
Wise DSS BU DM 模型 DM 模型 Management Software Procedure 
=a KDD KDD 模型 过 程 及 结果 Data Structure Stuff 
不 确定 DSS 模型 7 an 
ite Dss BY | DSS BUA DSS DSS 过 程 及 结果 Hardware Administrator 
其 他 需求 “| | 其 他 需求 的 显示 与 人 Stuff 
机 对 话 Administrator 
1 į i i 
(DM) 理 论 (DM) 技 术 | | (DM) 方 法 | | (DM) 模 型 
i i 1 į 1 
DW 理论 决策 理论 优化 理论 预测 理论 多 维 数据 分 析 理 论 
DB A 论 博弈 理论 决策 理论 | 
v FFEET 1 i i 
REDE memen || 下 | ae 
- 1 术 与 方法 DB DB 中 数 | | 决策 模型 
多 维 数据 建 |[ im | | 确定 DSS | | | 技术 | | 据 转 储 | | 集合 
模 理 论 和 方法 
mame | | 不 确定 DSS| | 优化 模型 | [ 定量 分 析 | [定性 分 析 ] [定量 与 定性 相 结合 
ket FEY 
纳什 均衡 | | 模糊 DSS | 一 一 \ \ 集成 技术 本 优化 模型 
gems: | | pss | HERRI | 曲线 增长 ] | Delphi 方 法 ] AHP 模 型 方法 
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动态 优化 ` ; 
us : 马尔 科 夫 模型 | | 模型 建立 sez 知识 发 现 
: A HR F 模型 
图 1.5 数据 仓库 系统 中 多 维 数据 组 织 的 形式 化 定义 与 知识 描述 


15..% 


1.4 数据 挖掘 方法 与 研究 体系 


1.4.1 数据 挖掘 系统 的 发 展 与 结构 


1. 数据 挖掘 系统 按 其 发 展 历程 可 以 分 为 四 代 

第 一 代数 据 挖掘 系统 支持 一 个 或 少数 几 个 数据 挖掘 算法 ,挖掘 算法 少 , 在 挖掘 时 数据 被 
一 次 调和 内存。 这 些 算 法 设计 用 来 挖掘 向 量 数据 ,系统 的 成 功 依赖 于 数据 的 质量 。 

第 二 代数 据 挖掘 系统 支持 数据 库 和 数据 仓库 。 可 与 DBMS 集成 ,或 有 与 数据 仓库 的 接 
口 ,能 处 理 大 而 复杂 的 数据 集 , 具 有 良好 的 可 扩展 性 。 该 类 系统 能 够 挖掘 大 型 数据 集 、 复 杂 
数据 集 和 高 维 数据 。 通 过 支持 数据 挖掘 模式 (Data Mining Schema) 和 数据 挖掘 查询 语言 
(Data Mining Query Language,DMQL) 增 加 系统 的 灵活 性 ,提供 了 与 数据 库 和 数据 仓库 之 
间 的 有 效 接口 。 

第 三 代数 据 挖掘 系统 能 够 挖掘 Internet/Extranet 的 分 布 式 和 高 度 异 质 的 数据 ,并 且 能 
够 有 效 地 和 操作 型 系统 集成 ,支持 分 布 式 和 异 质数 据 。 该 类 系统 的 关键 技术 之 一 是 与 预言 
模型 无 颖 集成 , 即 对 建立 在 异 质 系统 上 的 多 个 预言 模型 以 及 管理 这 些 预言 模型 的 元 数据 提 
供 第 一 级 别 的 支持 。 此 外 ,还 提供 了 数据 挖掘 系统 和 预言 模型 系统 之 间 的 有 效 接口 。 一 个 
重要 的 优点 是 由 数据 挖掘 系统 产生 的 预言 模型 能 够 自动 地 被 操作 系统 吸收 ,从 而 与 操作 型 
系统 中 的 预言 模块 相 联合 提供 决策 支持 的 功能 。 

第 四 代数 据 挖掘 系统 能 够 挖掘 由 庶 和 人 式 系统 、 移 动 系统 和 普遍 存在 的 计算 设备 产生 的 
各 种 类 型 的 数据 。 目 前 ,移动 计算 越 来 越 重 要 ,将 数据 挖掘 和 移动 计算 结合 是 当前 的 一 个 研 
究 热 点 ,研究 开发 分 布 式 ,移动 式 的 数据 挖掘 系统 成 为 第 四 代数 据 挖 气 系 统 研究 的 重要 课题 
之 一 。 

目前 ,第 一 代数 据 挖掘 系统 仍 在 发 展 中 ,第 二 代 、 第 三 代数 据 挖掘 系统 已 经 出 现 , 第 四 代 
数据 挖掘 系统 还 处 于 研究 阶段 。 


2. 数据 挖掘 系统 的 结构 

根据 数据 挖掘 系统 与 数据 库 或 数据 仓库 的 耦合 程度 ,可 以 将 数据 挖掘 系统 分 为 不 耦合 、 
松散 耦合 , 半 紧 耦合 和 紧密 耦合 四 种 结构 。 

不 耦合 是 指数 据 挖掘 系统 不 利用 数据 库 或 数据 仓库 系统 的 任何 功能 。 可 能 由 特定 的 源 
〈 如 文件 系统 ) 提 取 数 据 ,使 用 某 些 数据 挖掘 算法 处 理 数据 ,然后 将 挖掘 结果 存放 到 另 一 个 文 
件 中 。 这 种 系统 虽然 结构 简单 ,但 有 不 少 缺点 。 因 此 ,不 耦合 是 一 种 很 糟糕 的 设计 。 

松散 耦合 是 指数 据 挖掘 系统 将 使 用 数据 库 或 数据 仓库 系统 中 的 某 些 工 具 进 行 数据 控 
掘 , 然 后 将 挖掘 的 结果 存放 到 文件 ,数据库 或 数据 仓库 中 。 松 散 耦 合 比 不 耦合 好 ,然而 ,许多 
松散 耦合 的 系统 是 基于 内 存 的 ,挖掘 本 身 不 使 用 数据 库 或 数据 仓库 提供 的 数据 结构 或 查询 
优化 方法 ,对 于 海量 数据 集 ,该 系统 结构 很 难 获 得 可 伸缩 性 和 良好 的 性 能 。 

半 紧 密 耦 合 是 指 除了 将 数据 挖掘 系统 连接 到 一 个 数据 库 或 数据 仓库 系统 之 外 ,一 些 基 
本 的 数据 挖掘 原 语 还 可 以 在 数据 库 或 数据 仓库 系统 中 实现 。 这 种 设计 将 提高 数据 挖掘 系统 
的 性 能 。 
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紧密 耦合 系统 是 指数 据 挖掘 系统 平滑 地 集成 到 数据 库 或 数据 仓库 系统 中 。 数 据 挖掘 子 
系统 被 视 为 信息 系统 的 一 个 部 分 。 这 种 结构 是 高 度 期 望 的 ,但 其 实现 并 非 易 事 ,许多 问题 还 
有 待 于 进一步 研究 。 


1.4.2 数据 挖掘 的 相关 技术 与 工具 


1. 数据 挖掘 的 相关 技术 

数据 挖掘 的 主要 技术 包括 预测 技术 ,关联 规则 技术 , 聚 类 分 析 技 术 ,粗糙 集 技术 ,进化 计 
算 技 术 ,灰色 系统 技术 ,模糊 逻辑 技术 ,人 工 智 能 与 机 器 学 习 技 术 ,决策 树 技术 ,统计 分 析 方 
法 ,知识 获取 ,知识 表示 、 知 识 推 理 和 知识 搜索 技术 ,决策 与 控制 理论 ,可 视 化 技术 ,并行 计算 

1) 预测 (Forecast) 技 术 

为 了 科学 .详细 地 了 解 某 企 业 ( 某 生产 部 门 ) 的 业务 发 展 情况 和 今后 的 走势 ,可 采用 预测 
技术 对 其 生产 有 利 的 条 件 进行 科学 论证 和 判断 。 一 般 在 预测 过 程 中 ,可 以 根据 目标 范围 的 
不 同 , 将 其 分 为 宏观 预测 和 微观 预测 。 例 如 宏观 经 济 预 测 是 指 对 整个 国民 经 济 或 一 个 地 区 、 
一 个 部 门 的 经 济 发 展 前 景 的 预测 ;而 微观 经 济 预 测 是 以 单个 经 济 单位 的 经 济 活动 前 景 作为 
考察 的 对 象 。 按 预测 期 限 长 短 不 同 ,可 分 为 长 期 预测 ,中 期 预测 和 短期 预测 。 按 预测 结果 的 
性 质 不 同 ,可 分 为 定性 预测 与 定量 预测 ,有 时 也 采用 混合 预测 方法 。 

2) 关联 规则 (Association Rules) 技 术 

数据 之 间 的 关联 规则 指 的 是 在 数据 库 中 存在 的 一 类 重要 的 可 被 发 现 的 知识 。 若 两 个 或 
多 个 变量 的 取 值 之 间 存 在 某 种 规律 性 ,就 称 为 关联 。 关 联 分 析 的 目的 是 找 出 数据 库 中 隐藏 
的 关联 网 。 关 联 属性 技术 主要 应 用 在 从 大 型 数据 库 中 找 出 潜在 的 属性 相关 的 知识 上 。 例 
如 ,通过 调研 发 现在 大 多 的 汽车 修理 部 门 ,修理 汽车 的 同时 ,也 存在 着 购买 汽车 椅 垫 和 其 他 
零 部 件 的 可 能 ,如 果 将 这 些 相关 的 物品 和 零 部 件 都 放 在 汽车 修理 部 门 中 , 则 会 发 现 三 者 的 效 
益 会 同时 上 升 , 从 数据 挖掘 的 角度 来 认识 此 类 问题 , 则 认为 是 关联 知识 挖掘 的 问题 。 目 前 ， 
利用 关联 属性 技术 进行 数据 挖掘 的 研究 非常 盛行 ,著名 的 Apriori 算法 属于 目前 关联 属性 
挖掘 的 较 好 算法 模型 之 一 ,已 经 被 应 用 在 不 同 的 研究 领域 中 。 

3) 聚 类 分 析 (Clustering Analysis) 技 术 

聚 类 分 析 是 根据 事物 的 特征 对 其 进行 聚 类 或 分 类 ,通过 聚 类 或 分 类 可 以 发 现 其 中 的 规 
律 和 模式 。 聚 类 或 分 类 以 后 ,样本 数据 集 就 转化 为 类 集 。 同 一 类 的 样本 数据 具有 相似 的 变 
量 值 ,不 同类 的 样本 数据 的 变量 值 不 具有 相似 性 。 

4) 粗糙 集 (Rough Sets) 技 术 

采用 的 理论 是 粗糙 集 理 论 ,将 约 简 技术 应 用 在 不 确定 数据 的 范 化 和 数据 挖掘 。 粗 糙 集 
理论 是 波兰 Pawlak Z 教授 在 1982 年 提出 的 一 种 智能 决策 分 析 工 具 , 它 是 一 种 刻画 不 完整 
性 和 不 确定 性 的 数学 工具 ,能 有 效 地 分 析 不 精确 .不 一 致 .不 完整 等 各 种 不 完备 的 信息 ,并且 
能 够 将 其 不 确定 数据 分 析 的 结果 即 不 确定 和 不 精确 的 知识 用 已 知 的 知识 库 来 近似 刻画 和 处 
理 。 利 用 粗糙 集 理 论 可 以 解决 的 实际 问题 有 不 确定 (不 精确 ) 数 据 的 简化 .不 确定 (不 精确 ) 
数据 的 关联 性 发 现 、 不 确定 (不 精确 ) 数 据 所 产生 的 决策 模型 不 确定 (不 精确 ) 数 据 所 产生 的 
范 化 .基于 不 确定 (不 精确 ) 数 据 的 知识 发 现 等 。 目 前 粗糙 集 理论 与 方法 已 被 广泛 应 用 于 不 
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精确 .不 确定 、 不 完全 的 信息 分 类 和 知识 获取 。 

5) 进化 计算 (Evolutionary Computation ,EC) 技 术 

基于 生物 界 的 自然 选择 和 自然 遗传 机 制 的 计算 方法 ,如 遗传 算法 (Genetic Algorithm, 
GA) .进化 策略 (Evolution Strategies,ES) 和 进化 规则 (Evolutionary Programming, EP) 等 
方法 ,在 科研 和 实际 问题 中 的 应 用 越 来 越 广泛 ,并 取得 了 较 好 的 成 果 。 这 些 方法 都 是 基于 生 
物 进化 的 基本 思想 来 设计 、 控 制 和 优化 人 工 系统 ,一 般 将 这 类 计算 方法 统称 为 进化 计算 ,而 
将 相应 的 算法 统称 为 “进化 算法 ”或 者 "进化 程序 ”。 这 些 方 法 可 以 在 可 以 承受 的 计算 时 间 
内 ,很 好 地 解决 复杂 的 非 线性 优化 问题 ,克服 具有 多 个 局 部 极 值 的 非 线性 最 优化 问题 ,找到 
全 局 最 优 解 , 也 可 以 解决 复杂 的 组 合 规划 或 者 整数 规划 问题 。 

6) 灰色 系统 (Grey System) $R 

灰色 系统 是 通过 对 原始 数据 的 收集 与 整理 来 寻求 其 发 展 变化 的 规律 。 客 观 系 统 所 表现 
出 来 的 现象 尽管 纷繁 复杂 ,但 其 发 展 变化 有 着 自己 的 客观 逻辑 规律 ,是 系统 整体 各 功能 间 的 
协调 统一 。 因 此 ,如 何 通过 散乱 的 数据 序列 去 寻找 其 内 在 的 发 展 规律 就 显得 特别 重要 。 灰 
色 系 统 理论 认为 ,一 切 灰 色 序 列 都 能 通过 某 种 生成 弱化 其 随机 性 而 呈现 本 来 的 规律 ,认为 微 
分 方程 能 较 准 确 地 反映 事件 的 客观 规律 ,也 就 是 通过 灰色 数据 序列 建立 系统 反应 模型 ,并 通 
过 该 模型 预测 系统 的 可 能 变化 状态 。 

7) 模糊 逻辑 (Fuzzy Logic) 技 术 

模糊 数学 是 继 经 典 数学 .统计 数学 之 后 ,在 数学 上 的 又 一 新 的 发 展 。 在 数据 挖掘 领域 ， 
基于 模糊 逻辑 可 以 实现 模糊 综合 判别 .模糊 聚 类 分 析 等 多 种 数据 挖掘 模型 。 

8) 人 工 智能 (Artificial Intelligence. AI) 技术 

人 工 智 能 研究 计算 和 知识 之 间 的 关系 。 用 机 器 去 模拟 人 的 智能 ,使 机 器 具有 类 似 于 人 
的 智能 , 其 实质 是 研究 如 何 构造 智能 机 器 或 智能 系统 ,以 模拟 延伸、 扩展 人 类 的 智能 。 
AI 是 在 计算 机 科学 .控制 论 .信息 论 ,神经 心理 学 .哲学 .语言 学 等 多 种 学 科研 究 的 基础 上 发 
展 起 来 的 。 早 期 的 研究 领域 有 专家 系统 .机 器 学 习 、 模 式 识 别 . 自 然 语言 理解 .自动 定理 证 
明 自动 程序 设计 、 机 器 人 学 .博弈 .人工 神经 网 络 等 ;目前 已 涉及 数据 挖掘 、 智 能 决策 系统 、 
知识 工程 .分 布 式 人 工 智 能 等 。 人 工 智 能 技术 包括 推理 技术 .搜索 技 术 .知识 表示 与 知识 库 
技术 .归纳 技术 .联想 技术 、 分 类 技术 、. 聚 类 技术 等 ,其 中 最 基本 的 三 种 技术 即 知识 表示 HE SL 
和 搜索 都 在 数据 挖掘 中 得 到 了 体现 。 

人 工 智 能 有 许多 研究 领域 ,主要 的 有 以 下 几 个 领域 。 

(1) 专家 系统 (Expert System) 。 专 家 系统 是 依靠 人 类 专家 已 有 的 知识 建立 起 来 的 知 
识 系统 。 目 前 专家 系统 是 人 工 智能 研究 中 开展 较 早 、 最 活跃 成果 最 多 的 领域 ,广泛 应 用 于 
医疗 诊断 、 地 质 勘 探 、 石 油 化 工 、 军 事 、 文 化 教育 等 各 方面 。 它 是 在 特定 的 领域 内 具有 相应 的 
知识 和 经 验 的 程序 系统 , 它 应 用 人 工 智能 技术 、 模 拟人 类 专家 解决 问题 时 的 思维 过 程 ,来 求 
解 领域 内 的 各 种 问题 ,达到 或 接近 专家 的 水 平 。 

(2) 机 器 学 习 (Machine Learing)。 要 使 计算 机 具有 知识 一 般 有 两 种 方法 : 一 种 是 由 知 
识 工程 师 将 有 关 的 知识 归纳 、 整 理 , 并 且 表 示 为 计算 机 可 以 接受 .处 理 的 方式 输入 计算 机 。 
另 一 种 是 使 计算 机 本 身 有 获得 知识 的 能 力 , 它 可 以 学 习 人 类 已 有 的 知识 ,并 且 在 实践 过 程 中 
总 结 、 完 善 , 这 种 方式 称 为 机 器 学 习 。 主 要 在 以 下 三 个 方面 进行 机 器 学 习 的 研究 : 一 是 研究 
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人 类 学 习 的 机 理 、 人 脑 思 维 的 过 程 ;二 是 机 器 学 习 的 方法 ;三 是 建立 针对 具体 任务 的 学 习 
系统 。 

G) 模式 识别 (Pattern Recognition)。 模 式 识别 是 研究 如 何 使 机 器 具有 感知 能 力 ,主要 
研究 视觉 模式 和 听觉 模式 的 识别 ,如 识别 物体 、 地 形 、 图 像 、 字 体 ( 如 签字 ) 等 。 在 日 常生 活 的 
各 方面 以 及 军事 上 都 有 广大 的 用 途 。 近 年 来 迅速 发 展 起 来 的 应 用 模糊 数学 模式 、 人 工 神经 
网 络 模式 的 方法 逐渐 取代 了 传统 的 基于 统计 模式 和 结构 模式 的 识别 方法 。 

(4) 自然 语言 理解 。 计 算 机 如 能 “ 听 懂 ”人 的 语言 (如 汉语 、 英 语 等 ), 便 可 以 直接 用 口语 
操作 计算 机 ,这 将 给 人 们 带 来 极 大 的 便利 。 计 算 机 理解 自然 语言 的 研究 有 以 下 三 个 目标 : 
一 是 计算 机 能 正确 理解 人 类 的 自然 语言 输入 的 信息 ,并 能 正确 答复 (或 响应 ) 输 入 的 信息 ;二 
是 计算 机 对 输入 的 信息 能 产生 相应 的 摘要 ,而 且 复述 输入 的 内 容 ; 三 是 计算 机 能 把 输入 的 自 
然 语 言 翻 译 成 所 要 求 的 另 一 种 语言 ,如 将 汉语 译 成 英语 或 将 英语 译 成 汉语 等 。 目 前 ,人 们 做 
了 大 量 的 尝试 ,研究 如 何 利用 计算 机 进行 文字 或 语言 的 自动 翻译 ,但 还 没有 找到 最 佳 的 方 
法 ,有 待 于 更 进一步 深入 探索 。 

(5) 机 器 人 学 。 机 器 人 是 一 种 能 模拟 人 行为 的 机 械 , 研 究 经 历 了 三 代 : 第 一 代 ( 程 序 控 
制 ) 机 器 人 ;第 二 代 ( 自 适应 ) 机 器 人 ;第 三 代 ( 智 能 ) 机 器 人 。 智 能 机 器 人 具有 类 似 于 人 的 智 
能 ,装备 了 高 灵敏 度 的 传感器 ,具有 超过 一 般 人 的 视觉 听觉、 嗅觉 .触觉 的 能 力 , 能 对 感知 的 
信息 进行 分 析 ,控制 自己 的 行为 ,处 理 环境 发 生 的 变化 ,完成 各 种 复杂 困难 的 任务 ,而且 具 有 
自我 学 习 、 归 纳 、 总 结 、 提 高 已 掌握 知识 的 能 力 。 目 前 研制 的 智能 机 器 人 大 都 只 具有 部 分 的 
智能 ,和 真正 意义 上 的 智能 机 器 人 还 差 得 很 远 。 

(6) 智能 决策 支持 系统 (IDSS)。 属 于 管理 科学 的 范畴 , 它 与 “知识 -智能 "有 着 极其 密切 
的 关系 。 将 人 工 智 能 中 特别 是 智能 和 知识 处 理 技术 应 用 于 决策 支持 系统 ,扩大 了 决策 支持 
系统 的 应 用 范围 ,提高 了 系统 解决 问题 的 能 力 ,逐渐 形成 智能 决策 支持 系统 。 

(7) 人 工 神经 网 络 (Artificial Neural Network)。 人 工 神经 网 络 是 在 研究 人 脑 的 奥秘 中 
得 到 启发 ,试图 用 大 量 的 处 理 单元 (人 工 神 经 元 、 处 理 元 件 、 电 子 元 件 等 ;模仿 人 脑 神 经 系统 
工程 结构 和 工作 机 理 。 一 般 可 分 为 三 种 网 络 模 型 : 

O 前 馈 式 网 络 ”以 感知 机 ,误差 反 向 传播 模型 .函数 型 网 络 为 代表 ,可 用 于 预测 、 模 式 
识别 等 方面 ; 

© 反馈 式 网 络 €A Hopfield 的 离散 模型 和 连续 模型 为 代表 ,分 别 用 于 联想 记忆 和 优 
化 计算 ; 

© AAAMA ELA ART 模型 .Koholon 模型 为 代表 ,用 于 聚 类 分 析 等 方面 。 

9) 决策 树 (Decision Tree) 技 术 

决策 树 技术 主要 指 的 是 针对 给 定 的 一 组 样本 数据 ,根据 其 对 应 的 规则 ,最终 选取 相应 的 
一 组 动作 。 决 策 树 方法 是 利用 训练 集 生 成 一 个 测试 函数 ,根据 不 同 的 取 值 建立 树 的 分 支 ; 在 
每 个 分 支 子 集中 重复 建立 下 层 节 点 和 分 支 。 这 样 便 生成 一 棵 决策 树 , 然 后 对 决策 树 进 行 剪 
枝 处 理 , 最 后 把 决策 树 转 化 为 规则 ,决策 树 方法 主要 用 于 分 类 挖掘 。 决 策 树 方法 是 利用 信息 
论 中 的 互信 息 ( 信 息 增益 ) 寻 找 数据 库 中 具有 最 大 信息 量 的 属性 字段 ,从 而 建立 决策 树 的 一 
个 节点 ,再 根据 该 属性 字段 的 不 同 取 值 建 立 树 的 分 支 , 最 后 在 每 个 分 支 子 集中 再 重复 建立 树 
的 下 层 节 点 和 分 支 的 过 程 。 国际 上 最 早 , 也 是 最 有 影响 的 决策 树 方法 是 在 1986 年 由 
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Quinlan 提出 的 ID3 方法 。ID3 BEF A AREA De EAT PSE ,根据 属性 集 的 取 值 选 择 实 
例 的 类 别 ,要 解决 的 核心 问题 是 在 决策 树 中 各 层 节 点 上 选择 属性 。 用 信息 增益 率 作 为 属性 
选择 的 标准 ,使 得 在 每 个 非 叶 节 点 测试 时 ,能 获得 关于 被 测试 例子 最 大 的 类 别 信 息 。 使 
用 该 属性 将 例子 集 分 成 子 集 后 ,系统 的 箭 值 最 小 ,使 得 该 非 叶 节点 到 其 对 应 的 后 代 叶 节 
点 的 平均 路 径 最 短 , 从 而 使 得 所 生成 的 决策 树 的 平均 深度 较 小 ,进一步 提高 分 类 的 速度 
和 准确 率 。 

10) 统计 分 析 (Statistical Analysis ) 方 法 

统计 学 是 “数据 科学 ”, 即 收集 、 分 析 、 展 示 及 解释 数据 的 科学 。 统 计 学 在 数据 样本 选择 、 
数据 预 处 理 、 数 据 挖掘 过 程 及 评价 抽取 知识 的 步骤 中 有 着 非常 重要 的 作用 。 许 多 统计 学 的 
工作 是 针对 数据 和 假设 检验 的 模型 进行 评价 ,也 包括 评价 数据 挖掘 的 结果 。 在 数据 预 处 理 
步骤 中 ,统计 学 提出 了 估计 噪声 参数 过 程 中 要 用 的 平滑 处 理 技术 ,一定 程度 上 补足 丢失 数据 
和 消除 奇异 值 对 结果 的 负面 影响 作用 。 数 据 总 结 的 最 简单 方法 就 是 传统 的 统计 方法 ,计算 
出 数据 库 中 各 个 数据 项 的 总 和 、 均 值 \ 方 差 、 最 大 值 、 最 小 值 、 百 分 位 数 等 基本 描述 统计 量 ,还 
可 利用 图 形 工具 ,制作 总 体 的 频率 直方 图 、 饼 状 图 、 盒 形 图 、 葵 叶 图 、 散 点 图 及 拟 合 概率 分 布 
图 等 ,将 结果 直观 地 提供 给 分 析 者 。 多 元 统计 分 析 中 的 聚 类 分 析 、 判 别 分 析 、 回 归 分 析 、 主 分 
量 分 析 、 因 子 分 析 、 典 型 相关 分 析 、 偏 最 小 二 乘 回归 等 方法 都 能 在 一 定 程度 上 达到 数据 挖掘 
的 目的 ,数据 挖掘 的 数据 收集 .清理 环节 发 挥 作用 。 多 元 分 析 与 其 他 挖掘 技术 相 结合 ,使 之 
成 为 数据 挖掘 中 不 可 或 缺 的 工具 。 

11) 知识 获取 (Knowledge Acquisition) , Mi # 7R (Knowledge Representation)、 知识 
推理 (Knowledge Reasoning) 和 知识 搜索 (Knowledge Search) 技术 

知识 表示 是 指 在 计算 机 中 对 知识 的 一 种 描述 ,是 一 种 计算 机 可 以 接受 的 用 于 描述 知识 
的 数据 结构 。 表 示 方 法 可 分 为 符号 表示 法 和 连接 表示 法 。 符 号 表示 法 使 用 各 种 包含 具体 含 
义 的 符号 ,以 各 种 不 同 的 方式 和 次 序 组 合 起 来 表示 知识 , 它 主要 用 来 表示 逮 辑 性 知识 。 连 接 
表示 法 是 把 各 种 物理 对 象 以 不 同 的 方式 及 次 序 连接 起 来 ,并 在 其 间 相 互 传递 及 加 工 各 种 包 
含 具体 意义 的 信息 。 在 数据 挖掘 中 关联 规则 的 挖掘 用 到 了 符号 表示 法 。 知 识 推理 技术 从 已 
知 的 事实 出 发 ,运用 已 掌握 的 知识 , 找 出 其 中 蕴涵 的 知识 ,或 归纳 出 新 的 知识 。 推 理 可 分 为 
经 典 推 理 和 非 经 典 推 理 ,前 者 包括 自然 演绎 推理 .归纳 演绎 推理 ,与 /或 形 演 绎 推理 等 ,后 者 
主要 包括 多 值 逻 辑 推 理 、 模 态 逻 辑 推理 、 非 单调 推理 等 。 知 识 搜 索 是 根据 问题 的 实际 情况 不 
断 寻 找 可 利用 的 知识 ,从 而 构造 一 条 代价 较 小 的 推理 路 线 。 搜 索 分 为 盲目 搜索 和 启发 式 搜 
索 , 盲 目 搜 索 是 按 预定 的 控制 策略 进行 搜索 ,在 搜索 过 程 中 获得 的 中 间 信 息 不 用 来 改进 控制 
策略 。 启 发 式 搜索 是 在 搜索 过 程 中 加 入 与 问题 有 关 的 启发 性 信息 ,用 于 指导 搜索 朝 着 最 有 
希望 的 方向 前 进 ,加 速 问题 的 求解 过 程 ,并 找到 最 优 解 。 

12) 决策 与 控制 理论 (Decision and Control) 

传统 的 DSS 通常 是 在 某 个 假设 的 前 提 下 通过 数据 查询 和 分 析 来 验证 或 否定 这 个 假设 ， 
而 数据 挖掘 技术 则 能 够 自动 分 析 数 据 , 进 行 归 纳 整 理 ,从 中 发 现 潜在 的 模式 ,或 产生 联想 , 建 
立新 的 业务 模型 ,帮助 决策 者 调整 市 场 策略 并 找 出 正确 的 决策 。 数 据 挖掘 的 出 现 使 决策 支 
持 工 具 跨 入 了 一 个 新 阶段 。 数 据 挖掘 技术 的 兴起 为 IDSS 研究 指明 一 个 新 的 方向 , 即 基于 
数据 挖掘 的 IDSS。 
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13) 可 视 化 技术 (Visual Technology) 

该 方法 采用 直观 的 图 形 图 表 方 式 将 挖掘 出 来 的 模式 加 以 表现 ,数据 可 视 化 大 大 扩展 了 
数据 的 表达 能 力 从 而 也 便于 用 户 的 理解 。 因 此 ,数据 挖掘 中 的 可 视 化 技术 得 到 数据 挖掘 研 
究 人 员 日 益 广 泛 的 重视 。 

14) 并 行 计 算 技 术 (Parallel Computing Technologies) 和 海量 存储 (Mass Storage) 

强大 的 并 行 处 理 计算 机 可 以 提高 数据 挖掘 的 应 用 ,因为 并 行 处 理 技术 可 以 将 一 个 复杂 
的 查询 分 解 成 多 个 子 查 询 , 每 个 子 查 询 交 给 不 同 的 处 理 器 处 理 , 这 一 处 理 过 程 是 并 行 执行 
的 。 因 此 ,并 行 处 理 技术 可 以 大 大 加 速 数据 挖掘 的 过 程 。 

现在 的 数据 仓库 存储 的 数据 量 是 GB 到 TB 级 别 , 随 着 时 间 的 推移 ,在 未 来 五 年 ,可 能 
会 扩展 几 百 倍 , 因 此 ,廉价 可 行 的 存储 技术 对 于 数据 挖掘 来 说 变 得 非常 重要 。 目 前 ,普遍 采 
用 的 是 二 级 存储 技术 , 即 磁盘 ( 磁 光 盘 ) 一 主 存 两 级 存储 ,由 于 缺乏 快速 的 访问 和 存储 磁盘 技 
术 , 随 着 存储 容量 的 增长 .数据 挖掘 查询 越 来 越 复杂 以 及 并 行 处 理 器 速度 的 加 快 ,存储 技术 
可 能 会 成 为 数据 挖掘 的 新 瓶颈 。 

综 上 所 述 ,给 出 数据 挖掘 的 研究 内 容 ,其 研究 体系 归纳 如 图 1.6 所 示 。 
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图 1.6 数据 挖掘 的 研究 体系 


本 书 将 涉及 “数据 挖掘 的 研究 体系 ”中 的 八 个 主要 方面 ,包括 第 4 章 “ 预 测 模型 研究 与 应 
用 ”, 第 5 章 “ 关 联 规则 模型 及 应 用 ”, 第 6 章 “ 聚 类 分 析 方 法 与 应 用 ”, 第 7 章 “ 粗 糙 集 方法 与 
应 用 ”, 第 8 章 “ 遗 传 算法 与 应 用 ”, 第 9 章 “ 基 于 模糊 理论 的 模型 与 应 用 ”, 第 10 章 “ 灰 色 系 统 
理论 与 方法 ”, 第 11 半 “ 基 于 数据 挖掘 的 知识 推理 ”。 

2. 商用 的 数据 挖掘 工具 

目前 ,世界 上 比较 有 影响 的 数据 挖掘 系统 有 : IBM 公司 的 Intelligent Miner, Knowledge 
Discovery Workbench, QUEST, SGI 公司 的 Mineset, DBMiner, SAS 公司 的 Enterprise 
Miner, SPSS 公司 的 Clementine, Sybase 公司 的 Warehouse Studio, RuleQuest Research 7 
司 的 See5 ,还 有 CoverStory, EXPLORA 等 。 下 面 简 要 介绍 几 种 有 代表 性 的 商用 数据 挖掘 
系统 。 

(1) Intelligent Miner 是 由 IBM 公司 的 R. Agrawal 等 人 研究 开发 的 数据 挖掘 产品 , 提 
供 了 多 种 数据 挖掘 算法 ,包括 关联 分类、 回归 、 预 测 模型 .偏离 检测 、 序 列 模式 分 析 和 聚 类 。 
它 的 特色 有 两 点 : 一 是 它 的 数据 挖掘 算法 具有 可 伸缩 性 ;二 是 它 与 IBM DB2 关系 数据 库 管 
理 系统 紧密 地 结合 在 一 起 。 

(2) Knowledge Discovery Workbench 是 由 美国 的 KDD 专家 G. Piatetsky-Shapiro 领 
导 开 发 的 大 型 数据 库 交互 发 现 工具 。 它 可 以 进行 特征 描述 、 分 类 、 聚 类 ,偏差 检测 、 强 规则 依 
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赖 关系 发 现 等 ,其 特点 是 具有 良好 的 领域 适应 性 。 

(3) QUEST 是 IBM 公司 Almaden 研究 中 心 开发 的 一 个 多 任务 数据 挖掘 系统 ,目的 是 
为 新 一 代 决 策 支 持 系统 的 应 用 开发 提供 高 效 的 数据 开采 基本 构件 。 系 统 具 有 如 下 特点 : 

O 提供 了 专门 在 大 型 数据 库 上 进行 各 种 开采 的 功能 : 关联 规则 发 现 、 序 列 模式 发 现 、 
时 间 序 列 聚 类 ,决策 树 分 类 ,递增 式 主动 开采 等 。 

@ 各 种 开采 算法 具有 近似 线性 (O(n) ) 的 计算 复杂 度 , 可 适用 于 任意 大 小 的 数据 库 。 

@ 算法 具有 找 全 性 , 即 能 将 所 有 满足 指定 类 型 的 模式 全 部 寻找 出 来 。 

© 为 各 种 发 现 功能 设计 了 相应 的 并 行 算法 。 

(4) Mineset 是 由 SGI 公司 和 美国 Standford 大 学 联合 开发 的 多 任务 数据 挖掘 系统 。 
Mineset 集成 多 种 数据 挖掘 算法 和 可 视 化 工具 ,帮助 用 户 直观 地 、 实 时 地 发 现 理解 大 量 数据 
背后 的 知识 。Mineset 2.6 有 如 下 特点 : 

O 以 先进 的 可 视 化 显示 方法 闻名 于 世 。Mineset 中 使 用 了 六 种 可 视 化 工具 来 表现 数据 
和 知识 。 对 同一 个 挖掘 结果 可 以 用 不 同 的 可 视 化 工具 以 各 种 形式 表示 ,用 户 也 可 以 按照 个 
人 的 喜好 调整 最 终 效果 ,以便 更 好 地 理解 。Mineset 2.6 中 的 可 视 化 工具 有 SplatVisualize、 
ScatterVisualize、 MapVisualize、 TreeVisualize、 RecordViewer、 StatisticsVisualize、 
ClusterVisualizer, 其 中 RecordViewer 是 二 维 表 ,StatisticsVisualize 是 二 维 统 计 图 ,其 余 都 
是 三 维 图 形 , 用 户 可 以 任意 放大 旋转、 移动 图 形 ,从 不 同 的 角度 观看 。 

© 提供 多 种 数据 挖掘 模式 。 包 括 分 类 器 .回归 模式 .关联 规则 、` 聚 类 归 类 、 判 断 列 重要 
度 等 。 
O 支持 多 种 关系 数据 库 。 可 以 直接 从 Oracle .Infromix Sybase 的 表 中 读 取 数据 ,也 可 
以 通过 SQL 命令 执行 查询 。 

@ 多 种 数据 转换 功能 。 在 进行 挖掘 前 ,MineSet 可 以 去 除 不 必要 的 数据 项 ,统计 、 集 
合 ,分 组 数据 ,转换 数据 类 型 ,构造 表达 式 , 由 已 有 数据 项 生成 新 的 数据 项 ,对 数据 采样 等 。 

© 操作 简单 。 

@ 支持 国际 字符 。 

© 可 以 直接 发 布 到 Web 上 。 

(5) DBMiner 是 由 加 拿 大 Simon Fraser 大 学 的 韩 家 炜 (Jiawei Han) 等 人 研究 开发 的 一 
个 交互 式 、 多 层次 挖掘 系统 ,主要 挖掘 特征 规则 、 分 类 规则 .关联 规则 和 预测 等 。 基 于 数据 立 
方 体 的 联机 分 析 挖 掘 的 多 任务 系统 , 它 的 前 身 是 DBLearn。 该 系统 设计 的 目的 是 把 关系 数 
据 库 和 数据 开采 集成 在 一 起 ,以 面向 属性 的 多 级 概念 为 基础 发 现 各 种 知识 。DBMiner 系统 
具有 如 下 特色 : 

D 能 完成 多 种 知识 的 发 现 ,如 泛 化 规则 、 特 性 规则 、 关 联 规则 、 分 类 规则 、 演 化 知识 、 偏 
离 知 识 等 。 

@ 综合 了 多 种 数据 开采 技术 ,如 面向 属性 的 归纳 、 统 计 分 析 、 逐 级 深化 发 现 多 级 规则 、 
元 规则 引导 发 现 等 方法 。 

© 提出 了 一 种 交互 式 的 类 SQL 语言 一 一 数据 挖掘 查询 语言 。 

@ 能 与 关系 数据 库 平滑 集成 。 

© 实现 了 基于 客户 /服务 器 体系 结构 的 UNIX 和 PCCWindows/NT) 版 本 的 系统 。 
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3. 评价 数据 挖掘 工具 的 标准 

用 户 在 选择 数据 挖掘 产品 时 ,需要 多 角度 考察 数据 挖掘 系统 的 特征 。 其 中 包括 数据 类 
型 .系统 问题 ,数据 源 .数据 挖掘 的 功能 和 方法 ,数据 挖掘 系统 与 数据 库 或 数据 仓库 的 耦合 
性 ,可 伸缩 性 ,可 视 化 工具 和 图 形 用 户 界 面 等 。 评 价 一 个 数据 挖掘 工具 ,需要 从 以 下 几 个 方 
面 来 综合 考虑 : 

(1) 产生 模式 种 类 的 数量 。 多 种 模式 和 多 种 类 别 模式 的 结合 使 用 有 助 于 发 现 有 用 的 知 
识 ,降低 问题 复杂 性 。 例 如 : 首先 用 聚 类 的 方法 将 数据 分 组 ,然后 再 在 各 个 组 上 挖掘 预测 性 
的 模式 ,将 会 比 单纯 在 整个 数据 集 上 进行 操作 更 有 效 ,准确 度 更 高 。 

(2) 解决 复杂 问题 的 能 力 。 随 着 数据 量 的 增 大 ,对 模式 精细 度 、 准 确 度 要 求 的 增高 都 会 
导致 问题 复杂 性 的 增 大 。 数 据 控 掘 系 统 需要 提供 有 效 的 方法 解决 复杂 问题 。 

(3) 扩展 性 和 与 其 他 产品 的 接口 。 为 了 更 有 效 地 提高 处 理 大 量 数据 的 效率 ,数据 挖掘 
系统 的 扩展 性 十 分 重要 。 与 其 他 产品 接口 的 含义 是 : 有 很 多 别 的 工具 可 以 帮助 用 户 理 解数 
据 及 结果 。 这 些 工 具 可 以 是 传统 的 查询 工具 、 可 视 化 工具 、OLAP 工具 。 数 据 挖掘 工具 应 
提供 与 这 些 工具 集成 的 简易 途径 。 

(4) 并 行 计算 。 需 要 清楚 数据 挖掘 系统 能 否 充 分 利用 硬件 资源 ?是否 支持 并 行 计算 ? 
算法 本 身 设 计 为 并 行 的 或 利用 了 DBMS 的 并 行 性 能 ?支持 哪 种 并 行 计 算 机 ,SMP 服务 器 
还 是 MPP 服务 器 ? 当 处 理 器 的 数量 增加 时 ,计算 规模 是 否 相 应 增长 ? 是 否 支持 数据 并 行 
存储 ? 为 单 处 理 器 的 计算 机 编写 的 数据 挖掘 算法 不 会 在 并 行 计算 机 上 自动 以 更 快 的 速度 运 
行 。 为 充分 发 挥 并 行 计算 的 优点 ,需要 编写 支持 并 行 计算 的 算法 。 

(5) 数据 存 取 能 力 。 数 据 存 取 主要 是 考查 数据 挖掘 工具 或 方案 的 数据 访问 能 力 。 它 通 
常 包括 文 本 文件 .Excel 文件 NATIVE 接口 和 ODBC 等 。 一 般 情 况 下 ,数据 都 存储 在 数据 
库 里 或 文本 文件 中 的 数据 挖掘 工具 要 好 一 些 。 好 的 数据 挖掘 工具 可 以 使 用 SQL 语句 直接 
从 DBMS 中 读 取 数据 。 这 样 可 以 简化 数据 准备 工作 ,并 且 可 以 充分 利用 数据 库 的 优点 ( 比 
如 平行 读 取 )。 没 有 一 种 工具 可 以 支持 大 量 的 DBMS ,但 可 以 通过 通用 的 接口 连接 大 多 数 流 
行 的 DBMS ,例如 Microsoft 的 ODBC 就 是 一 个 这 样 的 接口 。 

(6) 数据 处 理 能 力 。 主 要 是 考查 数据 挖掘 工具 的 数据 处 理 能 力 。 它 通常 包括 基本 数学 
变化 (比如 Log, Ln) .连续 变量 的 数据 分 段 ,数据 整合 (数据 表格 的 合并 ) .数据 过 滤 ( 数 据 的 
字段 筛选 或 记录 筛选 ) .数据 转换 (字符 型 数据 转换 成 数字 型 等 ) .数据 编码 (无 效 数 据 编码 或 
缺失 数据 编码 等 ) .数据 随机 采样 以 及 SQL 支持 等 。 为 了 提供 数据 挖掘 的 准确 性 ,经 常 需要 
对 原始 数据 进行 一 系列 的 转换 ,以 便 从 不 同 角度 更 好 地 描述 某 种 事物 或 行为 ,所 以 丰富 的 数 
学 变化 函数 是 非常 需要 的 。 数 据 选择 和 转换 模式 通常 被 大 量 的 数据 项 隐藏 ,有 些 数据 是 宛 
余 的 ,有 些 数据 是 完全 无 关 的 ,而 这 些 数据 项 的 存在 会 影响 到 有 价值 的 模式 的 发 现 。 数 据 挖 
掘 系统 的 一 个 很 重要 功能 就 是 能 够 处 理 数 据 复杂 性 ,选择 正确 的 数据 项 和 转换 数据 值 。 

(7) 模型 算法 多 样 性 和 完备 性 。 算 法 是 数据 挖掘 工具 的 核心 部 分 ,算法 主要 包括 聚 类 
分 析 、 分 类 分 析 、 统 计 分 析 ` 关 联 分 析 、` 相 关 分 析 、. 时 间 序 列 和 值 预测 等 。 对 于 数据 挖掘 来 说 ， 
一 般 最 常用 的 算法 就 是 值 预测 (比如 预测 个 人 收入 ,客户 贡献 度 . 股 票 价格 等 ) 分 类 算法 ( 比 
如 用 于 风险 评级 产品 购买 概率 预测 客户 流失 预测 等 ) 以 及 聚 类 分 析 ( 比 如 用 于 客户 分 割 、 
内 幕 交 易 监 测 等 )。 因 此 ,在 评估 过 程 中 ,希望 数据 挖掘 工具 能 够 给 使 用 者 提供 需要 的 模型 
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算法 。 

(8) 自动 建 模 能 力 。 自 动 建 模 是 指 考查 数据 挖掘 工具 是 否 能 够 自我 优化 ,从 而 方便 一 
般 的 用 户 使 用 。 和 否则 ,用户 必须 很 深刻 地 了 解 算 法 的 优 缺 点 才能 手工 地 优化 模型 。 为 了 方 
便 具 备 一 般 数 据 挖 掘 技术 背景 的 用 户 使 用 ,数据 挖掘 工具 要 提供 灵活 的 参数 设置 及 帮助 。 
同时 ,为 了 增强 建 模 的 效率 ,模型 的 并 行 运行 和 自我 优化 也 是 非常 重要 的 。 

O) 易 操 作 性 和 可 视 化 技术 。 可 视 化 工具 提供 直观 ,简洁 的 机 制 表示 大 量 的 信息 ,有 助 
于 定位 重要 的 数据 ,评价 模式 的 质量 ,减少 建 模 的 复杂 性 。 一 个 好 的 数据 挖掘 工具 必须 提供 
图 形 和 图 表 等 可 视 化 技术 ,否则 将 会 给 用 户 带 来 很 多 额外 的 工作 量 。 为 了 了 解数 据 的 分 布 
情况 ,2D 图 和 饼 图 是 经 常用 到 的 ,其 他 比较 重要 的 图 形 包 括 树 状 显示 (主要 是 用 来 显示 决策 
树 的 结果 )、 散 点 图 (主要 是 用 于 关联 分 析 的 结果 显示 ) 、 线 图 (用 来 显示 回归 结果 )。 

数据 挖掘 工具 的 评估 标准 可 以 帮助 企业 选择 适合 的 数据 挖掘 工具 ,应 当 根据 自身 的 业 
务 需求 和 数据 挖掘 水 平 制定 类 似 的 评估 条 款 和 标准 来 进行 评估 。 


1.4.3 数据 挖掘 应 用 及 发 展 


1. 数据 挖掘 的 应 用 领域 

在 Gartner Group 的 一 次 高 级 技术 调查 中 ,将 数据 挖掘 和 人 工 智 能 列 为 “未 来 三 到 五 年 
内 将 对 工业 产生 深远 影响 的 五 大 关键 技术 ”之 首 , 并 且 还 将 并 行 处 理 体 系 和 数据 挖掘 列 为 未 
来 五 年 内 投资 焦点 的 十 大 新 兴 技 术 的 前 两 位 。 根 据 Gartner 的 HPC 研究 表明 , 随 着 数据 捕 
BE .传输 和 存储 技术 的 快速 发 展 , 大 型 系统 用 户 将 更 多 地 需要 采用 新 技术 来 挖掘 市 场 以 外 的 
价值 ,采用 更 为 广阔 的 并 行 处 理 系统 来 创建 新 的 商业 增长 点 。 

数据 挖掘 的 应 用 极其 广泛 。 针 对 特定 领域 的 应 用 ,人 们 开发 了 许多 专用 的 数据 挖掘 工 
具 , 包 括 天 文学 .生物 医学 `. 医 疗 保 健 `.DNA 分 析 银行、 金融. 零售 业 和 电信 业 等 。 

数据 挖掘 在 天 文学 上 有 一 个 非常 著名 的 应 用 系统 : 天 体 分 类 与 分 析 工 具 (Sky Image 
Cataloging and Analysis Tool,SKICAT) 。 它 是 由 加 州 理 工学 院 开 发 的 用 于 帮助 天 文学 家 
发 现 遥 远 的 星体 的 工具 。 其 任务 是 构造 星体 分 类 器 对 星体 进行 分 类 。 

数据 挖掘 在 生物 医学 上 的 应 用 主要 集中 于 分 子 生物 学 ,尤其 是 基因 工程 的 研究 。 它 在 
分 子 生物 学 上 的 工作 可 分 为 两 种 : 一 是 从 各 种 生物 体 的 DNA 序列 中 定位 出 具有 某 种 功能 
的 基因 串 ; 二 是 在 基因 数据 库 中 搜索 与 某 种 具有 高 阶 结构 或 功能 的 蛋白 质 相 似 的 高 阶 结构 
序列 。 

数据 挖掘 在 市 场 营销 中 的 应 用 可 分 为 两 类 : 数据 库 市 场 营 销 和 购物 篮 分 析 。 前 者 的 任 
务 是 通过 交互 查询 、 数 据 分 割 和 模型 预测 等 方法 来 选择 有 潜力 的 顾客 以 便 向 他 们 推销 产品 。 
后 者 的 任务 是 分 析 市 场 销售 数据 (如 POS 数据 库 ) 以 识别 顾客 的 购买 行为 ,从 而 帮助 确定 商 
店 货架 的 布局 等 ,促进 商品 的 销售 。 

数据 挖掘 在 银行 业主 要 用 于 信用 欺诈 的 建 模 和 预测 、 风 险 评估 、 趋 势 分 析 、 收 益 分 析 以 
及 辅助 销售 活动 。 在 金融 市 场 ,已 用 于 股票 价格 预测 、 购 买 权 交易 、 债 券 等 级 评定 、 资 产 组 合 
管理 、 商 品 价格 预测 、 合 并 和 买 进 以 及 金融 危机 预测 等 方面 。 

2. 数据 挖掘 的 发 展 

与 国外 相 比 ,国内 对 数据 挖掘 与 知识 发 现 的 研究 稍 晚 。 目 前 ,国内 的 许多 科研 单位 和 高 
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等 院 校 竞相 开展 知识 发 现 的 基础 理论 及 其 应 用 的 研究 ,包括 清华 大 学 .中 科 院 计算 技术 研究 
所 ,空军 第 三 研究 所 海军 装备 论证 中 心 等 。 其 中 ,北京 系统 工程 研究 所 对 模糊 方法 在 知识 
发 现 中 的 应 用 进行 了 较 深入 的 研究 ,北京 大 学 也 在 开展 对 数据 立方 体 代数 的 研究 ,华中 理工 
大 学 复旦 大 学 .浙江 大 学 .中 国 科技 大 学 .中科院 数学 研究 所 ,吉林 大 学 等 单位 开展 了 对 关 
联 规则 开采 算法 的 优化 和 改造 ;南京 大 学 和 上 海 交通 大 学 等 单位 探讨 并 研究 非 结构 化 数据 
的 知识 发 现 以 及 Web 数据 挖掘 。 这 些 研究 的 目的 在 于 解决 数据 丰富 而 知识 芽 乏 的 突出 矛 
盾 。 主 要 任务 是 对 大 型 分散 数据 库 中 的 数据 资源 进行 重新 规划 ,重新 组 织 , 营 造 出 新 的 、 容 
易 利 用 的 企业 信息 资源 库 , 以 达到 对 信息 流 、 物 流 、 资 金 流 等 资源 的 统一 管理 和 分 析 ,挖掘 出 
有 价值 的 信息 和 知识 ,给 企业 的 管理 者 和 决策 者 提供 有 力 的 决策 支持 。 

数据 挖掘 中 还 存在 许多 问题 有 待 于 进一步 研究 ,包括 下 列 几 个 研究 方向 : 

(1) 算法 效率 和 可 伸缩 性 。 目 前 ,数据 库 的 规模 呈 指 数 增 长 Mb 规模 的 数据 库 已 经 非 
常 普遍 。 在 商业 数据 库 中 ,Gb 和 Tb 规模 的 数据 库 也 已 经 在 使 用 中 。 当 把 www 包括 进来 
时 ,Pb 规模 的 数据 库 正 在 出 现 ,例如 ,NASA 轨道 卫星 上 的 地 球 观 测 系 统 EOS 每 小 时 会 向 
地 面 发 回 大 量 图 像 数 据 , 大 型 天 文 望远镜 每 年 会 产生 不 少 于 10Tb 的 数据 等 。 据 统计 ,数据 
和 计算 资源 的 增长 速度 符合 摩尔 定理 ,每 18 个 月 翻 一 番 。 因 此 ,海量 数据 挖掘 的 最 大 挑战 
不 仅仅 在 于 数据 库 的 绝对 规模 ,还 在 于 数据 挖掘 系统 能 够 处 理 这 些 持续 增长 的 数据 集合 。 
传统 进行 数据 分 析 的 算法 假设 数据 库 中 的 记录 数 比较 少 , 然 而 ,现在 许多 数据 库 大 到 内 存 无 
法 装 下 整个 数据 库 。 由 于 从 磁盘 中 获得 数据 明显 比 从 RAM 中 存 取 数 据 慢 。 因 此 ,为 了 保 
证 高 效率 ,运用 到 大 型 数据 库 中 的 数据 挖掘 算法 应 该 是 高 度 可 伸缩 的 , 即 如 果 给 出 一 个 固定 
的 内 存 大 小 ,算法 的 运行 时 间 随 着 输入 数据 库 的 记录 数 呈 线性 递增 ,就 说 该 算法 是 可 伸缩 
的 。 假 设 现在 使 用 一 个 计算 复杂 度 为 Ox ) 的 算法 ,根据 摩尔 定理 ,在 10 年 后 一 个 同样 的 
数据 挖掘 任务 将 需要 现在 运行 时 间 的 10 000 倍 。 其 原因 是 在 这 段 时 间 内 ,数据 的 规模 和 计 
算 速 度 将 大 约 增长 100 倍 , 而 计算 的 复杂 度 将 增加 1 000 000 倍 。 也 就 是 说 ,如 果 一 个 数据 
挖掘 任务 现行 需要 1 小 时 完成 ,10 年 后 , 它 的 运行 时 间 要 超过 1 年 。 因 此 ,进行 海量 数据 挖 
掘 的 算法 最 好 具有 线性 的 计算 复杂 度 OC) ,必须 能 有 效 地 人 处理 海量 数据 ,其 算法 必须 是 高 
效率 和 可 伸缩 的 。 

(2) 处 理 不 同类 型 的 数据 和 数据 源 。 目 前 数据 挖掘 系统 处 理 的 数据 库 大 多 是 关系 数据 
库 。 随 着 数据 库 应 用 范围 和 规模 的 日 益 扩 大 、 功 能 的 日 益 完 善 ,数据 库 中 将 包含 大 量 复杂 的 
数据 类 型 。 如 非 结构 化 和 半 结 构 化 的 数据 ,复杂 的 数据 对 象 .混合 文本 多 媒体 数据 .时空 数 
据 、 事 务 数据 及 历史 数据 等 ,甚至 出 现 新 的 数据 库 模 型 。 因 此 ,保证 数据 挖掘 系统 能 有 效 地 
处 理 不 同类 型 的 数据 库 中 的 数据 是 至 关 重 要 的 。 

(3) 数据 挖掘 系统 的 交互 性 。 数 据 挖掘 中 操作 者 的 适当 参与 能 加 速 数 据 挖 掘 的 过 程 。 
一 方面 ,交互 界面 接收 用 户 的 检索 .查询 要 求 和 数据 挖掘 策略 ,为 用 户 表 达 要 求 和 策略 提供 
了 方便 ; 男 一 方面 ,交互 界面 又 把 生成 的 结果 传递 给 用 户 ,由 于 生成 的 结果 可 以 是 多 种 多 样 ， 
因此 ,能 友好 ,准确 而 直观 地 描述 挖掘 结果 的 用 户 界面 一 直 是 研究 的 重要 课题 之 一 。 

(4) Web 挖掘 。 由 于 Web 上 存在 大 量 信息 ,并 且 Web 在 当今 社会 扮演 越 来 越 重要 的 
角色 ,因此 ,Web 挖掘 将 成 为 数据 挖掘 中 一 个 重要 和 繁荣 的 子 领域 。 

(5) 数据 挖掘 中 的 隐私 保护 与 信息 安全 。 数 据 挖 所 能 从 不 同 的 角度 、 不 同 的 抽象 层 上 
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看 待 数据 ,这 将 潜在 地 影响 数据 的 私有 性 和 安全 性 。 随 着 计算 机 网 络 的 日 益 普及 ,研究 数据 
挖 握 可 能 导致 的 非法 数据 入 侵 是 实际 应 用 中 蝇 待 解决 的 问题 之 一 。 

(6) 探索 新 的 应 用 领域 。 数 据 挖掘 的 应 用 领域 在 不 断 扩 大 。 由 于 通用 数据 挖掘 系统 在 
处 理 特定 应 用 问题 时 有 其 局 限 性 ,因此 ,目前 的 一 种 趋势 是 开发 针对 特定 应 用 的 数据 挖掘 
系统 。 

(7) 数据 挖掘 语言 的 标准 化 。 标 准 的 数据 挖掘 语言 或 有 关 方 面 的 标准 化 工作 将 有 助 于 
数据 挖掘 系统 的 研究 和 开发 ,有 利于 用 户 学 习 和 使 用 数据 挖掘 系统 。 

(8) 数据 挖掘 结果 的 可 用 性 、 确 定性 及 可 表达 性 。 所 发 现 的 知识 需 精 确 地 描述 数据 库 
的 内 容 , 并 对 已 明确 的 应 用 是 有 用 的 。 非 精确 的 结果 需 借助 于 不 确定 性 方式 来 表达 ,以 相似 
的 规则 或 多 个 规则 来 描述 。 噪 声 及 应 去 除 的 数据 在 数据 挖掘 系统 中 应 被 仔细 处 理 。 

(9) 各 种 数据 挖掘 结果 的 表达 。 数 据 挖 掘 可 以 发 现 不 同 种 类 的 知识 , 既 可 以 从 不 同 的 
角度 来 检验 发 现 的 知识 ,也 可 以 用 不 同 的 形式 来 表示 这 些 知 识 。 这 就 要 求 既 要 表达 对 数据 
挖掘 的 要 求 , 也 要 以 高 级 语言 或 图 形 用 户 界面 来 表达 发 现 的 知识 ,使 其 易于 被 用 户 理解 和 
运用 。 

(10) 可 视 化 数据 挖掘 。 可 视 化 数据 挖掘 是 从 大 量 数 据 中 发 现 知识 的 有 效 途径 ,系统 研 
究 和 开发 可 视 化 数据 挖掘 技术 将 有 助 于 推进 数据 挖掘 作为 数据 分 析 的 基本 工具 。 


1.5 小 结 
本 章 对 数据 挖掘 的 基础 理论 与 技术 方法 进行 了 阐 述 , 包 括 数据 仓库 与 数据 挖掘 定义 与 


解释 数据 仓库 系统 的 相关 技术 和 模式 ` 数 据 仓 库 系 统 的 形式 化 定义 与 知识 描述 .数据 挖掘 
的 相关 技术 方法 与 研究 体系 .数据 挖掘 的 工具 的 介绍 .数据 挖掘 应 用 及 发 展 趋势 等 内 容 。 


1. 解释 数据 仓库 的 定义 。 

2. 解释 数据 挖掘 的 定义 。 

3. 阐释 数据 仓库 系统 的 相关 技术 和 形式 化 定义 与 知识 描述 。 

4. 列举 数据 挖掘 的 相关 技术 。 

5. 根据 评价 数据 挖掘 工具 的 标准 并 对 某 一 种 流行 的 商用 数据 挖掘 工具 进行 评价 。 
6. 描述 数据 挖掘 的 应 用 领域 和 使 用 的 相关 数据 挖掘 技术 与 方法 。 
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数据 采集 亦 称 “数据 收集 ”, 是 将 在 空间 上 或 时 间 上 分 散 的 源 数据 集中 起 来 的 过 程 ,该 过 
程 产生 的 数据 将 成 为 数据 挖掘 的 主要 对 象 。 本 章 主要 从 五 个 方面 对 数据 采集 系统 进行 介 
绍 ,包括 数据 采集 的 主要 对 象 .数据 集成 技术 与 方法 .数据 预 处 理 技术 与 方法 .基于 样本 数据 
划分 的 通用 数据 挖掘 模型 系统 以 及 数据 采集 系统 中 的 中 间 件 技术 。 


2.1 数据 采集 的 对 象 


数据 挖掘 的 对 象 从 原则 上 来 讲 可 以 说 是 各 种 存储 方式 的 信息 。 目 前 的 信息 存储 方式 主 
要 包括 关系 数据 库 .数据 仓库 .事务 数据 库 .高 级 数据 库 .文件 数据 和 Web 数据 库 。 其 中 ,高 
级 数据 库 系 统 主 要 包括 面向 对 象 数据 库 .关系 对 象 数据 库 以 及 面向 应 用 的 数据 库 ( 如 空间 数 
据 库 .时 态 数据 库 ,文本 数据 库 . 多 媒体 数据 库 等 )。 在 这 些 数据 库 的 研究 中 ,数据 挖掘 可 以 
起 到 相当 大 的 作用 。 对 于 一 般 的 数据 不 加 以 说 明 , 本 书 仅 对 四 种 具有 特点 的 数据 类 型 进行 
Pala 

1. 时 序数 据 

随 着 计算 机 技术 和 大 容量 存储 技术 的 发 展 以 及 多 种 数据 获取 技术 的 广泛 应 用 ,人 们 在 
日 常事 务 处 理 和 科学 研究 中 积累 了 大 量 数据 。 被 保存 的 数据 绝 大 部 分 都 是 呈现 时 间 序 列 类 
型 的 数据 。 所 谓 时 间 序 列 类 型 数据 就 是 按照 时 间 先 后 顺序 排列 各 个 观测 记录 的 数据 集 。 时 
间 序 列 在 社会 生活 的 各 个 领域 都 广泛 存在 ,如 金融 证 券 市 场 中 每 天 的 股票 价格 变化 ,商业 零 
售 行业 中 某 项 商品 每 天 的 销售 额 ,气象 预报 研究 中 某 一 地 区 的 每 天 气温 与 气压 的 读数 ,以 及 
在 生物 医学 中 某 一 症状 病人 在 每 个 时 刻 的 心跳 变化 等 。 不仅 如 此 ,时 间 序 列 也 是 反映 事物 
运动 .发展 .变化 的 一 种 最 常见 的 图 形 化 描述 方式 。 通 过 曲线 打点 的 方式 ,非常 有 利于 人 们 
在 高 层次 上 来 展现 和 理解 事物 的 变化 。 例 如 ,在 1974 年 到 1989 年 对 多 种 具有 国际 影响 的 
报纸 中 包含 的 各 种 图 形 进行 采样 统计 后 ,发 现 其 中 至 少 75% 是 采用 时 间 序 列 的 图 形 方 式 进 
行 描述 。 

2. Web 数据 

近 几 年 来 ,网 络 信息 的 增长 极其 迅速 ,一 方面 到 处 是 唾 手 可 得 的 信息 ,“ 信 息 泛滥 ”已 造 
成 “信息 污染 ”; 另 一 方面 ,人 们 查找 自己 所 需 信 息 又 越 来 越 困 难 。 这 给 网 络 信息 组 织 提 出 了 
新 的 挑战 。 在 包罗 万 象 的 网 络 中 怎样 获得 自己 想 要 的 信息 ,已 成 为 人 们 最 关心 的 问题 。 虚 
拟 数据 库 就 此 应 运 而 生 。 为 了 处 理 Web 上 的 异 质 、 非 结构 化 或 半 结 构 化 数据 ,Web 数据 挖 
掘 成 为 数据 挖掘 研究 的 一 个 重要 分 支 。 虚 拟 数据 库 是 新 型 的 信息 检索 和 组 织 技 术 。 尽 管 
Web 数据 挖掘 是 比 Web 信息 检索 更 高 层次 的 技术 但 它 并 不 是 用 来 取代 Web 信息 检索 技术 
的 ,二 者 是 相辅相成 的 。 我 们 可 以 在 已 有 的 Web 信息 检索 技术 的 基础 上 展开 对 Web 数据 
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挖掘 的 研究 ,同时 又 可 以 利用 Web 数据 挖掘 的 研究 成 果 来 提高 信息 检索 的 精度 和 信息 组 织 
的 效率 并 改善 检索 结果 ,使 Web 信息 检索 和 组 织 发 展 到 一 个 新 的 水 平 。 

Web 挖掘 与 传统 的 数据 挖掘 相 比 有 许多 独特 之 处 。 

d) Web 挖掘 的 对 象 是 大 量 异 质 分 布 的 Web 文档 。 

(2) Web 在 逻辑 上 是 一 个 由 文档 节点 和 超 链接 构成 的 图 ,因此 Web 挖掘 所 得 到 的 模式 
可 能 是 关于 Web 内 容 的 ,也 可 能 是 关于 Web 结构 的 。 

(3) 由 于 Web 文档 本 身 是 半 结 构 化 或 无 结构 的 且 缺 乏 机 器 可 理解 的 语义 ,而 传统 数据 
挖掘 的 对 象 局 限于 数据 库 中 的 结构 化 数据 并 利用 关系 表格 等 存储 结构 来 发 现 知 识 , 因 此 有 
些 数据 挖掘 技术 并 不 适用 于 Web 挖掘 。 即 使 可 用 也 需要 建立 在 对 Web 文档 进行 预 处 理 的 
基础 之 上 。 

Web 挖掘 可 分 为 三 类 : 

C1) Web 内 容 挖掘 是 从 文档 内 容 或 其 描述 中 抽取 知识 的 过 程 。 由 于 Web 文档 绝 大 部 
分 内 容 以 文本 形式 存在 ,所 以 Web 内 容 挖掘 主要 针对 的 是 Web 文档 的 文本 部 分 。 文 本 挖 
掘 主要 包括 直接 对 Web 页 面 文档 内 容 以 及 搜索 引擎 的 查询 结果 进行 文本 的 总 结 、 分 类 、 聚 

(2) Web 结构 挖掘 是 从 WWW 的 组 织 结 构 和 链接 关系 中 推导 知识 的 过 程 。 由 于 文档 
之 间 的 互 连 , WWW 能 够 提供 除 文档 内 容 之 外 的 有 用 信息 。 利 用 这 些 信息 可 以 对 页 面 进行 
排序 发 现 重要 的 页 面 。 

(3) 用 户 访问 模式 挖掘 。 用 户 使 用 Web 获取 信息 的 过 程 中 需要 不 停 地 从 一 个 Web 
站 点 通过 超 文 本 链接 跳 转 到 另 一 个 站 点 ,这 种 过 程 存在 一 定 的 普遍 性 ,此 规律 的 发 现 即 
Web 用 户 访问 模式 发 现 ,是 关于 用 户 行为 及 潜在 顾客 信息 的 发 现 ,包括 三 种 模式 : 数据 预 
处 理 、 模 式 发 现 及 模式 分 析 。 通 常 的 实现 方法 是 通过 对 Sever Logs, Error Logs 和 Cookie 
Logs 等 日 志文 件 的 分 析 ,挖掘 出 用 户 访问 行为 频 度 和 内 容 等 信息 从 而 找 出 一 定 的 模式 和 
规则 。 


3. 多 媒体 数据 

多 媒体 数据 挖掘 (Multimedia Data Mining, MDM) 是 目前 国际 上 数据 库 、 多 媒体 技术 和 
信息 决策 领域 最 前 沿 的 研究 方向 之 一 ,是 数据 挖掘 的 一 个 新 兴 且 富有 挑战 性 的 领域 。 多 媒 
体 数 据 挖掘 系统 的 原型 结构 如 图 2. 1 所 示 。 多 媒体 数据 挖掘 系统 的 三 个 主要 阶段 ; 

(1) 数据 准备 。 在 完成 数据 集成 和 特征 库 建立 后 ,将 用 户 提出 的 挖掘 要 求 送 入 挖掘 引 
擎 ,用 相似 检索 技术 ,从 特征 库 中 抽取 与 用 户 要 求 相 关 的 数据 ,接着 用 与 请 求 相关 的 特征 建 
立 特 征 立 方 体 。 

(2) 多 媒体 数据 知识 挖掘 。 根 据 用 户 请求 , 对 特征 立方 体 实施 切片 . 切 块 . 下 钻 `、 上 旋 等 
处 理 技术 和 其 他 数据 挖掘 技术 ,发 现 媒体 特征 间 的 关系 ,基于 媒体 特征 的 图 像 、 视 频 的 分 类 
等 。 可 实施 交互 式 或 自动 的 知识 挖掘 ,从 而 发 现 用 户 感 兴趣 的 隐 含 知识 。 

(3) 知识 表示 与 解释 。 将 结果 以 图 形 界面 呈现 给 用 户 , 并 加 以 解释 和 说 明 。 若 用 户 不 
满意 , 则 重新 执行 上 述 操作 。 用 户 也 可 通过 挖掘 出 的 数据 再 进行 相关 数据 的 检索 。 
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图 2.1 多 媒体 数据 挖掘 系统 的 原型 结构 


特征 库 


4. 空间 数据 

空间 数据 挖掘 (Spatial Data Mining,SDM) 是 指 从 空间 数据 库 中 提取 出 用 户 感 兴趣 的 
空间 模式 与 特征 .空间 与 非 空间 数据 的 普遍 关系 及 其 他 一 些 隐 含 在 数据 库 中 的 普遍 的 数据 
特征 。 随 着 遥感 技术 雷达、 电视 摄像 .CT 成 像 和 自动 数据 采集 工具 的 广泛 应 用 ,空间 数据 
库 得 到 了 大 量 的 使 用 ,空间 数据 的 复杂 性 也 显著 地 提高 ,已 经 远 远 超 出 了 人 类 的 理解 能 力 。 
传统 的 数据 组 织 和 存 取 工 具 只 能 存储 和 查询 显 式 的 数据 ,然而 人 们 迫切 希望 提取 和 综合 隐 
含 在 大 量 空间 数据 中 的 知识 ,并 且 依 据 这 些 知识 进行 决策 ,这 就 为 现 有 的 空间 数据 库 技 
术 提 出 了 一 个 难题 。 于 是 出 现 了 一 项 新 技术 , 即 大 型 空间 数据 库 中 的 知识 发 现 ,也 称 为 
空间 数据 挖掘 ,此 项 技术 从 空间 数据 库 中 提取 隐藏 的 知识 .空间 关系 以 及 其 他 非 显 式 存 
储 的 模式 。 

空间 数据 挖掘 技术 在 很 多 领域 获得 了 广泛 应 用 。 相 关 的 空间 数据 可 以 从 地 理 信息 系统 
(Geographic Information System, GIS) 遥感、 图像 数据 库 检 索 、 医 疗 图 像 处 理 和 其 他 涉及 
空间 数据 的 领域 获取 。 随 着 Web 和 网 络 技术 的 发 展 , Web GIS 在 空间 数据 的 采集 中 的 应 
用 越 来 越 多 。 在 过 去 的 几 年 里 ,空间 数据 挖掘 技术 已 经 在 海洋 生态 研究 .太空 探险 .遥感 、 交 
通 状况 分 析 和 气候 研究 等 领域 中 获得 了 实际 应 用 。 相 信和 随 着 空间 数据 挖掘 方法 的 进一步 研 
究 , 这 项 技术 的 应 用 会 越 来 越 广泛 。 

以 前 大 部 分 空间 数据 分 析 方 法 都 使 用 统计 方法 处 理 数值 数据 。 然 而 统计 方法 存在 许 
多 缺点 和 不 足 ,如 统计 方法 通常 假设 空间 对 象 之 间 是 统计 独立 的 ,而 现实 中 空间 对 象 之 
间 通 常 是 相互 关联 的 ,而 且 统 计 模 型 只 有 有 具有 丰富 领域 知识 和 统计 经 验 的 专家 才能 使 
用 。 此 外 ,数据 统计 方法 在 分 析 海 量 空间 数据 时 的 计算 效率 很 低 。 空 间 数 据 包 括 两 部 
分 : 空间 对 象 和 有 关 这 些 对 象 的 非 空间 描述 。 空 间 数据 可 用 两 种 属性 来 表示 : 几何 属性 
和 拓扑 属性 。 几 何 属性 包括 对 象 的 位 置 . 面积 和 周 长 等 ,而 拓扑 属性 包括 相 邻 和 包含 等 
拓扑 关系 。 空 间 数据 和 传统 关系 数据 的 不 同 使 得 针对 关系 数据 库 设计 的 数据 挖掘 方法 
用 到 空间 数据 上 时 往往 无 法 得 到 令 人 满意 的 结果 。 针 对 空间 数据 的 数据 挖掘 方法 在 使 
用 传统 数据 挖掘 方法 的 同时 ,还 应 该 考虑 到 空间 对 象 之 间 的 相互 影响 ,有 时 要 重新 设计 
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算法 来 适应 数据 的 空间 特性 。 

空间 数据 挖掘 能 够 同时 处 理 数 据 库 中 空间 数据 与 非 空 间 数 据 , 它 产生 的 空间 知识 主要 
包括 空间 的 关联 关系 特征、 分 类 和 聚 类 ,一 般 表 现 为 一 组 概念 规则 和 模式 等 形式 的 集合 ， 
是 对 数据 库 中 的 数据 属性 、 模 式 、 频 度 和 对 象 簇 集 等 的 描述 。 P ea 
理解 空间 数据 ,发现 空间 数据 和 非 空 间 数 据 之 间 的 关系 、 创 建 空间 知识 库 \ 优 化 查询 .组织 
间 数 据 库 中 的 数据 以 及 以 简明 的 形式 描述 空间 数据 的 一 般 特征 。 从 空 TETEE 
到 的 知识 类 型 主要 有 如 下 几 种 。 

(1) 一 般 几 何 知识 : 指 某 类 几何 对 象 的 形状 特征 ,数量 等 几何 特征 。 

(2) 空间 分 布 规律 : 指 地 理 对 象 在 地 理 空 间 上 的 分 布 规律 。 

(3) 空间 关联 规则 : 指 描述 空间 对 象 之 间 的 相 邻 .相连 、 共 生 、 包 含 等 空间 关联 的 规则 。 

(4) 空间 分 类 (上 聚 类 ) 规 则 : 指 根据 空间 对 象 特征 的 聚 散 程度 将 它们 分 成 不 同 的 类 别 ， 
空间 分 类 规则 是 根据 空间 对 象 的 某 个 或 者 某 些 空 间或 非 空 间 特征 将 它们 划分 到 不 同类 别 的 
规则 。 

(5) 空间 特征 规则 : 指 描述 某 类 或 者 几 类 空间 对 象 的 空间 属性 和 非 空间 属性 的 普遍 特 
征 的 规则 。 

(6) 空间 区 分 规则 : 指 两 类 或 多 个 类 之 间 的 空间 属性 或 非 空 间 属 性 的 不 同 特点 ,是 对 
各 个 类 别 个 性 的 描述 。 

(7) 空间 演变 规则 : 指 空间 目标 依 时 间 的 变化 规则 。 

(8) We ， 指 某 类 复杂 对 象 的 子 类 构成 及 其 普遍 特征 的 知识 。 

空间 数据 挖掘 是 一 个 极 具 吸 引力 和 挑战 性 的 研究 领域 。 随 着 信息 量 的 增加 及 软 硬 件 技 
术 的 发 展 ,空间 数据 挖掘 将 有 更 广泛 的 应 用 前 景 , 会 使 各 种 利用 空间 数据 的 系统 具有 强大 的 
知识 发 现 功能 ,更 有 效 地 发 挥 已 有 或 潜在 的 价值 。 


Wat 


2.2 数据 集成 技术 与 方法 


数据 集成 是 将 多 个 数据 源 中 的 数据 (如 数据 库 、 数 据 立 方 体 或 一 般 文 件 ) 结 合 起 来 存放 
到 一 个 一 致 的 数据 存储 (如 数据 仓库 ) 中 的 一 种 技术 和 过 程 。 由 于 不 同学 科 方 面 的 数据 集成 
涉及 不 同 的 理论 依据 和 规则 ,数据 集成 可 以 说 是 数据 预 处 理 中 比较 困难 的 一 个 步骤 。 例 如 
在 空间 数据 集成 方面 ,许多 文献 利用 多 种 地 学 数据 及 非 地 学 数据 的 集成 ,基于 地 学 知识 和 地 
理 信息 系统 的 相关 功能 研究 数据 集成 过 程 中 涉及 的 具体 问题 。 在 并 行 计算 与 多 数据 库 系统 
集成 研究 方面 ,需要 结合 具体 的 数据 系统 和 特定 的 管理 领域 ,涉及 的 计算 机 和 专业 问题 的 特 
点 来 分 析 ,需要 特殊 处 理 对 策 ,不 可 一 概 而 论 。 

集成 的 信息 系统 要 解决 的 问题 ,反映 到 数据 及 程序 方面 ,具体 要 求 为 

(1) 数据 能 有 多 种 方式 被 录入 , 且 易 被 获取 ; 

C2) 数据 面向 所 有 程序 被 使 用 ` 处 理 、 存 储 与 更 新 ; 

(3) 所 有 软件 可 以 被 和 人 网 的 个 人 计算 机 调用 运行 并 能 协调 工作 ; 

(4) 用 户 与 系统 之 间 的 交互 界面 直观 ; 

(5) 数据 集成 机 制 贯 穿 于 系统 , 且 这 些 机 制 实现 尽 可 能 是 无 缝 的 。 
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在 设计 企业 集成 管理 信息 系统 时 ,根据 子 系统 的 功能 把 所 有 子 系统 划分 为 两 大 类 : 数 
据 处 理 类 和 查询 类 。 然 后 根据 子 系统 的 功能 选择 相应 的 体系 结构 ,为 数据 处 理 类 子 系统 选 
FET C/S 结构 ,为 查询 类 子 系统 选择 了 B/S 结构 。 

本 节 以 交通 运输 管理 系统 集成 技术 与 方法 进行 具体 说 明 。 作 为 GPS 跟踪 定位 与 远程 
监控 的 信息 传输 手段 ,无 线 通信 技术 是 实现 其 功能 的 关键 。 全 球 移动 通信 系统 (Global 
System for Mobile Communications,GSM) fy %# & A GPS 技术 的 广泛 应 用 提供 了 可 靠 保 
障 , 特 别 是 利用 GSM 网 络 提供 的 短 消息 服务 (Short Message Service, SMS) 使 信息 传输 更 
加 方便 快捷 ,使 GPS 系统 的 运行 费用 大 幅度 下 降 。 因 此 可 以 说 GPS 已 进入 了 实用 性 普及 
阶段 。 另 一 方面 随 着 计算 机 软件 技术 的 发 展 , 大 量 数据 处 理 专用 软件 的 开发 ,促进 了 地 图 矢 
量化 `. 地 理 数据 建 库 等 地 理 信息 技术 的 发 展 。 作 为 GPS 应 用 的 载体 GIS 技术 以 其 准确 而 可 
靠 的 数据 、 多 样 化 的 信息 输出 ,开拓 出 广泛 的 应 用 空间 。 因 此 在 交通 运输 领域 ,将 GPS, 
GSM,GIS 技术 有 机 地 结合 ,为 车 辆 监控 、 交 通 控制 的 智能 化 提供 切实 可 行 的 解决 方案 是 十 
分 必要 的 。 

要 将 运输 企业 各 系统 有 机 地 结合 ,需要 对 信息 系统 的 开发 方案 及 相关 软 硬 件 资源 进行 
综合 集成 ,可 分 为 数据 集成 环境 集成 .应 用 集成 。 

。 数据 集成 : 将 信息 系统 从 各 种 渠道 中 获得 的 数据 集中 管理 ,减少 数据 宛 余 度 , 提 高 

数据 的 完整 性 \ 准 确 性 一致 性 ,达到 数据 的 高 度 共享 ,从 而 使 信息 系统 发 挥 数据 资 
源 丰 富 的 最 大 优势 ,为 企业 的 决策 提供 最 及 时 、 最 丰富 的 可 靠 的 信息 。 

。 环境 集成 包括 系统 运行 的 硬件 环境 .软件 环境 ,解决 如 何 利用 客观 条 件 为 应 用 系统 

提供 统一 的 支撑 环境 来 支持 应 用 系统 的 运作 。 

。 应 用 集成 指 用 户 的 应 用 需求 功能 在 信息 系统 中 的 真正 实现 和 其 真实 含义 的 具体 

体现 。 


2.2.1 3G 与 MIS 的 集成 模式 


目前 , 越 来 越 多 的 运输 企业 看 到 了 信息 系统 对 提升 管理 效率 和 运输 效率 的 作用 ,并 建立 
了 多 种 信息 系统 ,如 GPS、GIS 和 管理 信息 系统 (Management Information System. MIS) ,但 
由 于 各 类 系统 有 各 自 的 管理 和 运行 模式 ,其 信息 交换 能 力 非常 薄弱 ,更 谈 不 上 与 相关 企业 实 
现 信息 的 共享 ,因此 ,交通 运输 业 的 发 展 越 来 越 依 赖 于 包括 各 种 管理 和 基于 网 络 通信 在 内 的 
一 个 可 交换 和 共享 的 集成 管理 信息 系统 。 集 成 是 指 一 个 整体 的 各 部 分 之 间 能 彼此 有 机 协调 
地 工作 ,以 发 挥 整体 效益 ,达到 整体 优化 的 目的 。 运 输 企 业 集成 管理 信息 系统 就 是 将 GPS、 
GIS, MIS 有 机 地 结合 在 一 起 ,GIS 可 以 作为 基础 的 信息 系统 平台 ,具有 可 视 化 .地 理 分 析 和 
空间 分 析 等 优势 。GPS 与 通信 技术 可 以 实现 大 范围 内 数据 传输 ,对 于 信息 系统 指挥 .调度 、 
监控 ,管理 等 具有 重大 的 意义 。 通 过 广泛 应 用 GPS, GIS, GSM MIS 等 技术 成 果 , 建 立 快 
速 .便利 的 集成 运输 管理 信息 系统 ,可 克服 传统 系统 的 弊端 。 传 统 系统 中 ,各 系统 之 间 互 不 
沟通 ,大 量 匈 余 的 信息 存储 于 各 个 子 系统 内 ,而 决策 用 的 综合 信息 却 很 难 完整 地 得 到 ,或 者 
信息 虽然 能 在 各 系统 间 流 动 , 但 信息 模式 异 构 , 无 法 综合 运用 ,这 种 模式 花费 了 企业 很 多 资 
源 , 但 企业 的 整体 效益 并 没有 多 大 改观 。 

而 基于 GPS、GIS 与 MIS 技术 的 运输 企业 集成 管理 信息 系统 ,在 系统 总 体 设计 时 ,充分 

saie 


地 研究 了 运输 企业 的 现状 和 发 展 趋势 ,根据 运输 企业 信息 化 进程 中 的 实际 需求 ,提出 了 运输 
企业 集成 管理 信息 系统 构架 。 该 构架 遵照 统一 而 优化 的 功能 模型 和 信息 模型 ,选用 合理 的 
数据 分 布 结构 及 开放 的 软件 平台 ,通过 信息 集成 将 原先 没有 联系 或 联系 不 紧密 的 单元 有 机 
地 组 合成 为 功能 协调 的 、 互 相 紧 密 联 系 的 新 系统 ,从 而 最 大 限度 地 减少 数据 的 元 余 , 保 持 数 
据 的 一 致 性 和 完整 性 ,为 高 层 的 查询 和 决策 提供 真正 有 用 的 综合 信息 。GPS 是 运输 企业 车 
辆 位 置信 息 的 主要 来 源 。 基 于 GPS 数据 实现 的 运输 组 织 决策 在 其 准确 性 、 实 时 性 上 都 有 和 较 
大 的 优势 ,是 运输 企业 人 全面、 合理 地 使 用 资源 的 有 效 途 径 。 由 于 运输 企业 对 地 理 空间 有 和 较 大 
的 依赖 性 ,采用 GIS 技术 建立 企业 的 车 辆 监控 系统 可 以 实现 企业 的 车 辆 监控 可 视 化 、 实 时 
动态 管理 。 现 代 车 辆 监控 系统 就 是 一 种 集 GPS 技术 、GIS 技术 和 现代 通信 技术 于 一 体 的 高 
科技 系统 。 它 将 移动 目标 的 位 置信 息 ( 经 度 、 纬 度 ) 时间、 状态 .运行 方向 和 运行 速度 等 信 
息 ,通过 无 线 通信 通道 传输 到 监控 中 心 , 在 具有 地 理 信息 查询 功能 的 电子 地 图 上 进行 移动 目 
标 运 动 轨迹 的 显示 ,并 对 目标 的 位 置 、 速 度 、 运 动 方 向 、 车 辆 状态 等 参数 进行 监控 和 查询 ,于 
是 监控 中 心 就 可 以 清楚 地 掌握 车 辆 的 宏观 动态 位 置信 息 和 运行 状况 ,从 而 准确 地 进行 车 辆 
实时 监控 和 调度 指挥 ,提高 车 辆 的 使 用 效率 ;而 MIS 是 一 个 以 人 为 主导 ,利用 计算 机 硬件 、 
软件 、 网 络 通信 设备 以 及 其 他 办 公设 备 ,进行 信息 的 收集 、 传 输 、 加 工 、 存 储 、 更 新 和 维护 ,以 
提高 效益 和 效率 为 目的 ,支持 企业 高 层 决策 .中 层 控 制 . 基 层 运 作 的 集成 化 的 人 机 系统 。 运 
输 企 业 MIS 是 一 个 以 客户 为 中 心 , 以 货物 配送 为 主要 任务 ,以 提高 效益 和 效率 为 目的 ,以 支 
持 企业 高 层 决策 为 宗旨 的 管理 信息 系统 。GPS/GIS 与 MIS 的 集成 模式 如 图 2. 2 所 示 。 
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图 2.2 GPS/GIS 与 MIS 的 集成 模式 
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GPS/GIS 技术 与 MIS 管理 技术 的 集成 主要 体现 在 : 实现 了 配送 作业 的 可 视 化 管理 ,对 
于 配送 调度 决策 具有 重大 意义 ;通信 技术 与 运输 管理 技术 的 有 效 集成 ,实现 了 运输 管理 的 动 
态 调 度 和 指挥 ;GPS 技术 和 GSM 的 集成 技术 与 运输 管理 技术 的 有 效 集成 ,实现 了 移动 目标 
的 实时 监控 。 通 过 这 种 集成 模式 ,系统 实现 了 GPS/GIS 监控 系统 与 MIS ASA RARE 
成 ,使 系统 非常 容易 进行 数据 共享 。 


2.2.2 异 构 数据 集成 的 设计 与 实现 


通过 一 个 实例 ,说 明 如 何 利 用 异 构 数 据 整 合 平台 实现 数据 的 集成 与 交换 过 程 。 

首先 ,确定 源 数 据 和 目标 数据 ,图 2.3 显示 了 数据 整合 初始 界面 。 

在 “ 原 属性 ”和 “目标 属性 ”文本 框 中 分 别 输入 源 数 据 与 目标 数据 中 要 进行 蔡 换 或 整合 的 
字段 名 ,如 果 确 认 进 行 无 条 件 蔡 换 , 可 以 选中 ”无 条 件 蔡 换 ? 单 选 按钮 ,然后 单 击 “ 替 换 ” 按 钮 。 
替换 过 后 ,可 以 单 击 * 显 示 目 标 数 据 ? 按 钮 ,查看 目标 数据 ,如 图 2.4 所 示 。 


图 2.3 数据 整合 页 面 图 2.4 无 条 件 替换 


如 果 确 认 进 行 有 条 件 替换 ,可 以 选中 “有 条 件 蔡 换 ? 单 选 按钮 ,此 时 需要 在 “属性 值 "文本 
框 中 填写 原 属 性 的 属性 值 , 在 “ 蔡 换 为 "文本 框 中 填写 目标 属性 值 ,然后 单 击 “ 蔡 换 ” 按 钮 。 替 
换 完成 后 ,可 以 单 击 “ 显 示 目 标 数据 ”按钮 ,查看 目标 数据 ,如 图 2. 5 所 示 。 

采用 同样 的 方法 ,可 以 继续 对 其 他 属性 进行 替换 。 需 要 注意 的 是 ,对 于 出 生年 月 的 替换 
和 整合 的 方法 为 : 选择 源 数据 中 的 任 一 条 记录 ,例如 选中 原 数据 的 属性 值 19830905(8 字 
节 ) 转 换 到 目标 数据 的 属性 值 1983/09/05(10 字 节 ) ,转换 规则 : 目标 年 月 字符 串 == 原 年 月 
字符 串 的 前 4 个 字 节 十 “/” 十 原 年 月 字符 串 的 第 5、 第 6 两 个 字 节 十 /十 原 年 月 字符 串 的 后 
2 字 节 。 图 2. 6 展示 了 对 日 期 属性 的 有 条 件 蔡 换 过 程 。 
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图 2.5 有 条 件 蔡 换 图 2.6 对 “日 期 "类 属性 的 有 条 件 蔡 换 


2.3 数据 预 处 理 技术 与 方法 


数据 源 的 获取 、 数 据 获 取 和 信息 集成 等 相关 研究 为 数据 预 处 理 提供 了 基础 。 根 据 数据 
挖掘 的 需求 ,将 相关 的 多 源 数 据 集成 融合 后 ,需要 进行 多 种 数据 预 处 理 操 作 。 数 据 预 处 理 的 
流程 主要 包括 数据 清理 数据 集成 和 融合 ,数据 变换 、 数 据 规约 以 及 在 对 数据 挖掘 结果 的 评 
价 计划 基础 上 进行 的 二 次 预 处 理 的 精练 。 数 据 预 处 理 流程 如 图 2.7 所 示 。 
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1 二 次 预 处 理 
图 2.7 数据 预 处 理 流程 


2.3.1 数据 清理 的 方法 


数据 清理 是 数据 准备 过 程 中 最 花费 时 间 、 最 乏味 的 ,但 也 是 最 重要 的 一 步 。 该 步骤 可 以 
有 效 地 减少 学 习 过 程 中 可 能 出 现 的 相互 矛盾 的 情况 。 初 始 获得 的 数据 主要 有 以 下 几 种 情况 
需要 处 理 。 
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1. 含 噪 声 数据 

目前 处 理 此 类 数据 最 广泛 的 技术 是 应 用 数据 平滑 方法 。 

(1) 分 箱 技术 : 检测 周围 相应 属性 值 进行 局 部 数据 平滑 。 

(2) 聚 类 技术 : 根据 要 求 选择 模糊 聚 类 分 析 或 灰色 聚 类 分 析 技 术 检测 孤立 点 数据 ,并 
进行 修正 ,还 可 结合 使 用 灰色 数学 或 粗糙 集 等 数学 方法 进行 相应 检测 。 

(3) 利用 回归 函数 或 时 间 序 列 分 析 的 方法 进行 修正 。 

(4) 计算 机 和 人 工 相 结合 的 方式 等 。 

对 此 类 数据 ,尤其 对 于 孤立 点 或 异常 数据 ,是 不 可 以 随便 以 删除 方式 进行 处 理 的 。 因 为 某 
些 孤立 点 数据 和 离 群 数据 代表 了 某 些 有 特定 意义 和 重要 的 潜在 知识 。 因 此 ,对 于 孤立 点 应 先 
进入 数据 库 ,而 不 进行 任何 处 理 。 当 然 , 如 果 结合 专业 知识 分 析 , 确 信 无 用 则 可 进行 删除 处 理 。 


2. 错误 数据 

对 带 有 错误 的 数据 元 组 ,结合 数据 所 反映 的 实际 问题 ,进行 分 析 、 更 改 .删除 或 忽略 。 同 
时 也 可 结合 模糊 数学 的 隶属 函数 寻找 约束 函数 ,根据 前 一 段 历史 数据 趋势 对 当前 数据 进行 
修正 。 

3. 缺失 数据 

(1) 若 数据 属于 时 间 局 部 性 缺失 , 则 可 采用 近 阶 段 数 据 的 线性 插值 法 进行 补缺 ; 若 时 间 
段 较 长 , 则 应 该 采用 该 时 间 段 的 历史 数据 恢复 丢失 数据 ; 若 属 于 数据 的 空间 缺损 , 则 用 其 周 
围 数据 点 的 信息 来 代替 , 且 对 相关 数据 作 备注 说 明 , 以 备查 用 。 

(2) 使 用 一 个 全 局 常量 或 属性 的 平均 值 填 充 空缺 值 。 

(3) 使 用 回归 的 方法 或 使 用 基于 推导 的 贝 叶 斯 方法 或 判定 树 等 来 对 数据 的 部 分 属性 进 
行 修复 。 

(4) 忽略 元 组 。 


4. 宛 余 数据 

宛 余 数据 也 包括 属性 元 余 和 属性 数据 的 元 余 。 若 通过 因子 分 析 或 经 验 等 方法 确信 部 分 
属性 的 相关 数据 足以 对 信息 进行 挖掘 和 决策 ,可 通过 用 相关 数学 方法 找 出 具有 最 大 影响 属 
性 因子 的 属性 数据 ,其 余 属 性 则 可 删除 。 若 某 属 性 的 部 分 数据 足以 反映 该 问题 的 信息 , 则 其 
余 的 可 删除 。 若 经 过 分 析 , 这 部 分 元 余数 据 可 能 还 有 他 用 则 先 保留 并 进行 备注 说 明 。 


2.3.2 数据 融合 的 方法 

美国 学 者 最 早 提 出 “数据 融合 "(信息 融合 ) 一 词 ,并 于 20 世纪 80 年 代 建 立 甚 技术。 本 
文 所 讲 的 融合 仅 限于 数据 层 的 数据 融合 , 即 把 数据 融合 的 思想 引入 到 数据 预 处 理 的 过 程 中 ， 
加 入 数据 的 智能 化 合成 ,产生 比 单一 信息 源 更 准确 、 更 完全 、 更 可 靠 的 数据 进行 估计 和 判断 ， 
然后 存 人 数据 仓库 或 数据 挖掘 模块 中 。 常 见 的 数据 融合 方法 见 表 2. 1。 
2.3.3 数据 变换 的 方法 


数据 变换 是 采用 线性 或 非 线性 的 数学 变换 方法 将 多 维 数据 压缩 成 较 少 维 数 的 数据 , 消 
除 它们 在 时 间 、 空 间 、 属 性 及 精度 等 特征 表现 方面 的 差异 。 这 类 方法 虽然 对 原始 数据 都 有 一 
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表 2.1 常见 数据 融合 方法 


数据 融合 方法 分 类 具体 方法 
静态 的 融合 方法 贝 叶 斯 估 值 加权 最 小 平方 等 
动态 的 融合 方法 递归 加 权 最 小 平方 ,卡尔 曼 滤 波 、 小 波 变 换 的 分 布 式 滤波 
基于 统计 的 融合 方法 马尔 科 夫 随机 场 .最 大 似 然 法 、 贝 叶 斯 估 值 等 
信息 论 算法 聚集 分 析 、 自 适应 神经 网 络 ,表决 逻辑 ,信息 炉 等 
模糊 理论 /灰色 理论 灰色 关联 分 析 、 灰 色 聚 类 等 


定 的 损害 ,但 其 结果 往往 具有 更 大 的 实用 性 。 常 见 数据 变换 方法 见 表 2. 2。 
表 2.2 常见 数据 变换 方法 分 类 


数据 变换 方法 分 类 fe HW 
数据 平滑 去 噪 ,将 连续 数据 离散 化 ,增加 粒度 
数据 聚集 对 数据 进行 汇总 
数据 概 化 减少 数据 复杂 度 , 用 高 层 概念 替换 
数据 规范 化 使 数据 按 比例 缩放 , 落 入 特定 区 域 
属性 构造 构造 出 新 的 属性 


常用 的 规范 化 方法 有 最 小 一 最 大 规范 化 .Z 一 score 规范 化 ( 零 一 均值 规范 化 )、 小 数 定 
标 规范 化 等 。 应 用 主 成 分 分 析 方 法 计算 模型 中 的 数据 变换 矩阵 的 方法 。 通 过 数据 变换 可 用 
相当 少 的 变量 来 捕获 原始 数据 的 最 大 变化 。 具 体 采 用 哪 种 变换 方法 应 根据 涉及 的 相关 数据 
的 属性 特点 而 定 ,根据 研究 目的 可 把 定性 问题 定量 化 ,也 可 把 定量 问题 定性 化 。 


2.3.4 数据 归 约 的 方法 


数据 经 过 去 噪 处 理 后 , 需 根据 相关 要 求 对 数据 的 属性 进行 相应 处 理 。 数 据 规约 就 是 在 
减少 数据 存储 空间 的 同时 尽 可 能 保证 数据 的 完整 性 ,获得 比 原始 数据 小 得 多 的 数据 ,并 将 数 
据 以 合乎 要 求 的 方式 表示 。 数 据 归 约 的 主要 方法 见 表 2. 3。 

表 2.3 常见 数据 规约 方法 


数据 规约 方法 分 类 具体 方法 

数据 立方 体 聚集 数据 立方 体 聚 集 等 

维 规约 属性 子 集 选择 方法 等 

数据 压缩 小 波 变 换 、 主 成 分 分 析 、 分 形 技术 等 
数值 压缩 回归 ASE RKE 

离散 化 和 概念 分 层 分 箱 技术 .直方 图 .基于 入 的 离散 化 等 


针对 高 维 数据 的 数据 预 处 理 过 程 , 降 维 也 就 是 维 数 消减 , 它 将 会 影响 系统 的 运行 复杂 性 
和 挖掘 效率 。 降 维 方法 的 研究 主要 集中 在 两 个 方面 : 一 种 是 从 有 关 变 量 中 消除 无 关 、 弱 相 
关 或 元 余 的 维 ,寻找 一 个 变量 子 集 来 构建 模型 , 即 子 集 选择 法 。 而 对 诸如 粗糙 集 这 种 无 法 处 
理 连 续 属 性 值 的 数据 挖掘 方法 , 需 对 数据 中 包含 的 连续 属性 取 值 进行 离散 化 ,可 利用 概念 层 
次 树 ,将 数据 泛 化 到 更 高 的 层次 ,从 而 可 以 帮助 有 效 减 少 在 学 习 过 程 所 涉及 的 输入 、 输 出 
操作 。 

在 数据 预 处 理 的 实际 应 用 过 程 中 ,上 述 步 又 有 时 并 不 是 完全 分 开 的 。 另 外 ,应 该 针对 具 
体 所 要 研究 的 问题 通过 详细 分 析 后 再 进行 预 处 理 方法 的 选择 ,整个 预 处 理 过 程 要 尽量 人 机 
结合 ,尤其 要 注重 和 客户 以 及 专家 多 交流 。 预 处 理 后 , 若 挖掘 结果 显示 和 实际 差异 较 大 ,在 
排除 源 数 据 的 问题 后 则 有 必要 考虑 数据 的 二 次 预 处 理 ,以 修正 初次 数据 预 处 理 中 引入 的 误 
差 或 方法 的 不 当 , 若 二 次 挖掘 结果 仍然 异常 则 需要 另行 揪 酌 以 实现 达到 较 好 的 挖 气 效 果 。 
男 外 ,对 于 动态 数据 ,如 数据 流 问 题 , 它 和 普通 数据 的 预 处 理 有 何 区 别 以 及 如 何 更 好 地 进行 
预 处 理 , 有 待 于 以 后 加 强 研究 。 


2.4 基于 样本 数据 划分 的 通用 数据 挖掘 模型 系统 


复杂 的 数据 具有 多 维 、. 异 构 , 不 确定 等 特点 。 为 解决 该 问题 ,需要 对 数据 挖掘 系统 中 的 
数据 进行 细致 的 分 析 后 ,发现 影响 运行 的 主要 因素 。 但 是 在 数据 挖掘 前 ,数据 的 类 别 不 清 
JE ,需要 花费 大 量 的 搜索 时 间 来 判别 样本 数据 属于 哪 种 模型 ,需要 经 过 怎样 的 数据 预 处 理 
操作 。 

引入 通用 数据 挖掘 模型 的 意义 主要 在 于 : 将 复杂 类 型 的 物流 信息 在 挖掘 前 变 成 中 性 数 
据 , 大 大 提高 了 数据 挖掘 模型 的 运行 速度 。 经 过 大 量 的 实践 ,下 面 提出 基于 样本 数据 划分 的 
通用 数据 挖掘 模型 系统 ,如 图 2. 8 所 示 。 


分 类 约 简 | | 强项 集 生成 满足 某 一 确定 可 信 度 | | 规则 形成 算法 
算法 算法 支持 度 的 子 空间 “| | 及 表示 法 
样本 | OW a TET i 
DW 逻辑 空间 库 | ”| 有 意义 逻辑 | He 
Ke 构造 “| | 库 特 征 提取 | [eee eme] | T AOAR 
SERRI Ee F ; 息 ， 即 知识 ( 
仓库 OW ee eee 可 行 解 向 量 转换 | | 式 ) 产 生 过 程 
i 空间 库 的 |~| 有 价值 特 m | Sapa aa 
构造 征 值 提取 a T ! 
i 
复杂 结构 | | 混合 类 型 约 简 模式 评估 与 分 析 
类 型 数据 | | “D ; 
paag) asnan PANA 可 行 解 
| | 
自主 学 习 = 知识 (模式 ) 确 定 
优化 建 模 逼近 标 函 数 (最 优 模型 ) 


图 2.8 基于 样本 数据 划分 的 通用 数据 挖掘 模型 系统 
CE 


样本 数据 可 分 为 三 类 

1. 完备 的 样本 数据 的 数据 挖掘 模型 

对 于 完备 的 样本 数据 仓库 ,通过 构造 逻辑 空间 库 ,利用 强项 集 生 成 算法 实现 有 意义 的 逻 
辑 库 中 的 特征 属性 提取 ,建立 满足 可 信和 度 和 支持 度 的 子 空间 ,这 个 子 空间 就 是 逻辑 库 的 特征 
子 空间 。 


2. 不 完备 的 样本 数据 的 数据 挖掘 模型 
对 于 不 完备 的 样本 数据 仓库 ,要 构造 相对 应 的 不 完备 逻辑 空间 库 ,通过 析 取 和 泛 化 技术 
实现 决策 属性 的 约 简 ,建立 逻辑 库 的 特征 子 空间 。 


3. 混合 类 型 数据 的 数据 挖掘 模型 

对 于 混合 型 的 样本 数据 仓库 ,通过 优化 建 模 技 术 生 成 系统 的 状态 集 , 利 用 各 种 自主 学 习 
的 逼近 算法 实现 候选 解 集 的 提取 ,通过 求解 目标 函数 求 得 可 行 解 ,将 得 到 的 可 行 解 转换 为 逻 
辑 子 空间 , 即 建 立 逻 辑 库 的 特征 子 空间 。 

通过 对 应 的 处 理 技术 和 方法 ,实现 对 完备 的 ,不 完备 的 和 混合 类 型 的 样本 数据 的 特征 子 
空间 的 构造 ,建立 了 完备 的 ,不 完备 的 和 混合 类 型 的 样本 数据 相应 的 迎 辑 库 的 特征 子 空间 。 
在 特征 子 空间 中 ,利用 规则 形成 算法 和 表示 法 生成 规则 , 即 有 价值 的 知识 模式 ,利用 这 些 规 
则 进行 知识 获取 和 知识 推理 。 利 用 多 种 评价 标准 对 生成 的 规则 和 模式 进行 评估 和 分 析 , 利 
用 得 到 的 评估 结论 ,修正 和 验证 规则 形成 算法 和 表示 法 ,经 过 不 断 的 优化 和 修正 ,最 终 确 定 
最 优 的 知识 (模式 )。 


2.5 中 间 件 技术 


2.5.1 中 间 件 技术 的 定义 与 作用 


1. 中 间 件 (Middleware) 的 定义 、 特 点 与 解释 

目前 还 没有 一 个 确切 的 中 间 件 的 定义 ,但 是 根据 诸多 中 间 件 的 应 用 实例 ,大 多 数 专 家 们 
将 中 间 件 定义 为 : 中 间 件 是 一 种 独立 的 系统 软件 或 服务 程序 ,分 布 式 应 用 软件 借助 这 种 软 
件 在 不 同 的 技术 之 间 共 享 资源 。 中 间 件 位 于 客户 机 / 服务 器 的 操作 系统 之 上 ,管理 计算 机 
资源 和 网 络 通信 , 它 是 连接 两 个 独立 应 用 程序 或 独立 系统 的 软件 。 相 连接 的 系统 ,即使 它们 
具有 不 同 的 接口 ,但 通过 中 间 件 相互 之 间 仍 能 交换 信息 。 执 行 中 间 件 的 一 个 关键 途径 是 信 
息 传递 。 通 过 中 间 件 ,应 用 程序 可 以 工作 于 多 平台 或 操作 系统 环境 。 

1) 特点 

中 间 件 的 主要 特点 包括 : 

(1) 满足 大 量 的 、 多 用 途 应 用 的 需要 ; 

(2) 运行 于 多 种 硬件 和 多 操作 系统 的 公共 平台 ; 

G) 支持 分 布 式 计算 ,提供 跨 网 络 、 硬 件 和 OS 平台 的 透明 性 的 应 用 或 服务 的 交互 
功能 ; 
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(4) 中 间 件 往往 介 于 数据 仓库 系统 中 间 层 ; 

(5) 支持 标准 的 协议 和 标准 的 接口 。 

2) 分 类 

通用 中 间 件 类 型 有 八 种 : 

a) 企业 服务 总 线 (Enterprise Service Bus. ESB); ESB 是 一 种 开放 的 、 基 于 标准 的 分 
布 式 同步 或 异步 信息 传递 中 间 件 。 通 过 XML、Web 服务 接口 以 及 标准 化 基于 规则 的 路 由 
选择 文档 等 支持 ,ESB 为 企业 应 用 程序 提供 安全 互 用 性 。 

(2) 分 布 式 计算 环境 中 间 件 : 主要 创建 运行 在 不 同 平台 上 的 分 布 式 应 用 程序 所 需要 的 
一 组 技术 服务 。 

(3) 事务 处 理 (Transaction Processing,TP) 中 间 件 : 为 发 生 在 对 象 间 的 事务 处 理 提供 
支持 大 规模 事务 处 理 的 可 靠 运行 环境 ,具有 进程 管理 ,事务 管理 ,通信 管理 等 功能 。 

(4) 远程 过 程 调 用 (Remote Procedure Call, RPC) 中间 件 : RPC 机 制 是 分 布 式 应 用 系 
统 经 常 采 用 的 一 种 同步 方式 的 请 求 与 应 答 协 议 。RPC 可 以 用 来 存 取 各 种 各 样 的 数据 源 , 包 
括 关 系 型 . 非 关 系 型 甚至 关系 型 与 非 关 系 型 数据 库 的 结合 体 。 

G) 面向 对 象 请 求 代理 (Object Request Broker, ORB) 中 间 件 : ORB 中 间 件 提供 了 标 
准 的 构件 框架 ,使 得 不 同 厂 商 的 软件 通过 不 同 的 地 址 空间 、 网 络 和 操作 系统 交互 访问 。 与 
RPC 所 支持 的 单纯 的 Client/Server 结构 相 比 ,ORB 可 以 支持 更 加 复杂 的 结构 ,也 就 是 说 ， 
ORB 中 间 件 为 用 户 提供 与 其 他 分 布 式 网 络 环境 中 对 象 通信 的 接口 。 

(6) 数据 库 访问 中 间 件 (Database Access Middleware, DCM): 为 了 建立 数据 应 用 资源 
相互 操作 的 模式 ,对 异 构 环境 下 的 数据 库 或 者 文件 系统 实现 连接 的 中 间 件 。 

(7) 面向 消息 中 间 件 (Message-Oriented Middleware. MOM): MOM 指 的 是 利用 高 效 
可 靠 的 消息 传递 机 制 进行 与 平台 无 关 的 数据 交流 ,并 基于 数据 通信 来 进行 分 布 式 系统 的 集 
成 。 目 前 中 间 件 领域 的 研究 热门 技术 是 异步 消息 中 间 件 ,如 电子 邮件 系统 作为 该 中 间 件 的 
一 种 形式 。 

(8) 基于 XML 的 中 间 件 (XML-Based Middleware): XML 人 允许 开发 人 员 为 实现 在 
Internet 中 交换 结构 化 信息 而 创建 文档 。 

对 上 述 的 中 间 件 分 类 ,也 可 以 按照 它们 的 功能 命名 ,如 数据 采集 中 间 件 、.RFID 中 间 件 、 
协同 管理 中 间 件 ,业务 流程 优化 中 间 件 .数据 整合 中 间 件 等 。 目 前 ,有 的 专家 将 中 间 件 分 为 
终端 仿真 /屏幕 转换 中 间 件 .数据 访问 中 间 件 .远程 过 程 调用 中 间 件 .消息 中 间 件 .交易 中 间 
件 、 对 象 中 间 件 。 

最 早 具 有 中 间 件 技术 思想 及 功能 的 软件 是 IBM 的 CICS, 但 由 于 CICS 不 是 分 布 式 环 
境 的 产物 ,因此 人 们 一 般 把 Tuxedo 作为 第 一 个 严格 意义 上 的 中 间 件 产品 。Tuxedo 是 1984 年 
在 当时 属于 AT&&T 的 贝尔 实验 室 开 发 完成 的 ,Tuxedo 在 一 段 时 期 里 只 作为 实验 室 产 
品 , 后 来 被 Novell 收购 ,在 经 过 Novell 并 不 成 功 的 商业 推广 之 后 ,1995 年 被 现在 的 BEA 
公司 收购 。 尽 管 中 间 件 的 概念 产生 较 早 ,但 中 间 件 技术 的 广泛 运用 是 在 最 近 10 年 内 。 
BEA 公司 1995 年 成 立 后 收购 Tuxedo 才 成 为 一 个 真正 的 中 间 件 厂商 ,而 IBM 的 中 间 件 
MQSeries 也 是 20 世纪 90 年 代 的 产品 , 它 的 许多 中 间 件 产品 也 都 是 在 近 几 年 才 作为 成 熟 
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的 产品 。 由 于 成 熟 的 中 间 件 产品 只 是 近 几 年 出 现 的 ,而 中 国 在 中 间 件 领域 的 起 步 阶段 处 
于 整个 世界 范围 内 中 间 件 的 初创 阶段 ,所 以 ,中 国 的 中 间 件 软件 产品 起 步 较 早 , 也 就 是 
说 ,与 国际 上 的 中 间 件 技术 相 比 ,其 差距 不 大 。 如 北京 东方 通 科技 发 展 有 限 责 任 公司 是 
中 间 件 软件 的 专业 厂商 .工业 与 信息 化 部 的 投资 企业 、 国 家 规划 布局 内 重点 软件 企业 、 中 
国 软件 行业 协会 中 间 件 软件 分 会 理事 长 单位 “ 核 高 基 ” 等 国家 重大 科技 计划 项 目的 承担 
单位 , 早 在 1992 年 就 开始 中 间 件 的 研究 与 开发 ,1993 年 推出 第 一 个 产品 TongLINK/Q, 
该 公司 与 国际 巨头 IBM, ORACLE 在 国内 市 场 形成 三 足 易 立 的 局 面 , 根 据 赛 迪 顾 问 、. 计 世 
资讯 . 易 观 国际 等 权威 咨询 机 构 的 市 场 分 析 报 告 ,东方 通 中 间 件 的 市 场 占有 率 在 国内 企 
业 中 名 列 首位 ,其 中 间 件 产品 已 被 广泛 应 用 于 金融 、 通 信 、 能 源 、 交 通 、 政 府 、 军 工 等 众多 
行业 ,总 装机 量 超过 60 万 套 , 其 中 全 国 性 大 用 户 包 括 中 国人 民 银 行 、 中 国 工商 银行 ,中 国 
建设 银行 、 中 国 农业 银行 、 交 通 银行 、 华 夏 银行 、 中 国 移动 、 中 国联 通 、 中 国电 信 、 交 通 部 、 
农业 部 .国家 计生 委 、 中 联 部 .全 国人 大 、 中 国 海事 局 等 (资料 来 源 ， http://www. 
tongtech. com/about/index. jsp)。 而 中 科 院 软件 所 早 在 1995 年 就 开始 利用 “对 象 技术 中 
心 ” 的 技术 基础 研究 中 间 件 。 与 此 同时 ,国内 还 有 国防 科技 大 学 、 北 京 航空 航天 大 学 等 研 
究 机 构 也 对 中 间 件 技术 进行 了 同步 研究 。 因 此 ,在 中 间 件 软件 系统 的 研究 技术 ,中 国 的 
起 步 时 间 并 不 比 国外 晚 。 

3) 趋势 

综 上 所 述 ,中 间 件 未 来 发 展 趋势 将 朝 着 如 下 目标 发 展 : 

(1) 规范 化 。 在 公共 信息 平台 与 数据 仓库 机 制 ( 环 境 ) 下 ,必然 会 出 现 各 个 系统 不 同 的 、 
异 构 的 源 数据 资源 ,为 了 统一 该 平台 的 数据 ,必须 制定 相应 的 规范 化 的 中 间 件 ,来 实现 其 平 
台 最 终 的 目标 。 目 前 常用 的 中 间 件 有 : 消息 类 的 JMS, 对 象 类 的 CORBA .COM/DCOM , 交 
易 类 的 XA、OTS、JTA/JTS, 应 用 服务 器 类 的 J2EE, 数 据 访 问 类 的 ODBC. JDBC, Web 服务 
有 Soap, WSDL, UDDI 等 各 类 中 间 件 等 。 

(2) 构件 化 和 松 耦 合 。 随 着 计算 机 网 络 技术 与 电子 商务 的 普及 与 发 展 , 对 多 业务 系统 
的 业务 流程 整合 技术 要 求 也 越 来 越 高 ,而 中 间 件 技术 也 逐渐 面向 Web 松散 耦 合 的 方向 发 
展 ,如 基于 XML 和 Web 服务 的 中 间 件 技术 ,实现 了 在 不 同系 统 之 间 、 不 同 应 用 之 间 的 灵活 
性 ;XML 也 提供 了 一 种 定义 新 的 标识 语言 标准 ,而 XML 技术 也 非常 适合 异 构 系 统 间 的 数 
据 交 换 , 因 此 XML 在 国际 上 已 经 被 普遍 采纳 为 电子 商务 的 数据 标准 ;同时 ,专家 们 也 将 
Web 服务 作为 基于 Web 技术 的 构件 ,在 流程 中 间 件 的 控制 和 集成 下 可 以 灵活 、 动 态 地 被 组 
织 成 为 跨 企 业 的 商务 应 用 。 

(3) 平台 化 。 大 多 数 中 间 件 厂商 的 发 展 模式 是 : 在 公司 已 经 由 的 中 间 件 产品 基础 
上 ,提出 了 完整 的 面向 互联 网 的 软件 公共 平台 战略 计划 和 具体 的 解决 方案 。 如 Sun 公司 
一 直 致 力 于 向 企业 提供 受到 广泛 欢迎 的 网 络 软件 ,Sun 是 开放 式 网 络 计 算 的 领导 者 。 
Sun 公司 是 世界 上 最 大 的 UNIX 系统 供应 商 , 其 主要 产品 有 UltraSPARC 系列 工作 站 、 服 
务 器 和 存储 器 等 计算 机 硬件 系统 ,Sun ONE 品牌 软件 、Solaris 操作 环境 、Java 系列 开发 工 
具 和 应 用 软件 以 及 各 类 服务 等 ,Sun 公司 对 互联 网 的 应 用 和 发 展 发 挥 了 重要 作用 。IBM 
公司 提出 了 面向 网 络 应 用 的 “旧金山 计划 ”, 以 WebSphere, DB2, Tivoli, Domino 四 大 品牌 
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组 成 基础 架构 平台 ,提供 从 中 间 件 、 服 务 器 到 解决 方案 的 一 揽 子 组 合 服务 。Oracle 公司 推 
出 了 以 Oracle 9i 为 中 心 的 网 络 软件 平台 。 微 软 的 . NET 平 台 已 经 成 为 主流 的 开发 技术 之 
一 ,依托 其 强大 的 框架 (. NET) 根 据 不 同 应 用 场景 为 分 布 式 技术 提供 了 多 种 开发 平台 , 具 
体 技术 有 : 

O Web Services ,目前 最 主流 的 分 布 式 技术 和 最 适合 实现 SOA 的 技术 集合 , 它 已 经 成 
为 业界 标准 ; 

© .NET remoting, 基 于 .NET 系统 的 强大 和 高 效 的 分 布 式 开 发 技术 ; 

© MSMQ ,集成 于 Windows 操作 系统 内 部 的 , 轻 量 级 的 ,可 以 在 多 个 不 同 的 应 用 之 间 
实现 相互 通信 的 一 种 异步 传输 模式 ; 

© SOA 的 概念 ,原理 及 设计 原则 ; 

© WCF. ,基于 .NET Framework 3. x, 对 Web Services 和 remoting 的 统一 和 整合 , 它 
将 作为 SOA 理论 对 应 实践 的 最 佳 解决 方案 。 


2. 基于 数据 仓库 系统 的 中 间 件 

随 着 计算 机 的 普及 与 网 络 应 用 技术 的 发 展 ,数据 仓库 技术 也 在 不 断 发 展 , 目 前 数据 仓库 
的 综合 技术 也 不 断 涌现 ,其 中 的 中 间 件 也 作为 建立 数据 仓库 必 不 可 缺 的 技术 ,被 人 们 越 来 越 
重视 起 来 。 

目前 作为 数据 仓库 的 中 间 件 有 : 

(1) 数据 采集 系统 中 的 中 间 件 (组 件 或 工具 等 ), 如 公共 对 象 请 求 代理 体系 结构 (Common 
Object Request Broker Architecture. CORBA) 是 由 对 象 管 理 组 织 (Object Management 
Group,OMG) 制 订 的 一 种 标准 的 面向 对 象 应 用 程序 体系 规范 。CORBA 体系 结构 是 对 象 管 
理 组 织 为 解决 分 布 式 计算 环境 (Distributed Computing Environment,DCE) 中 ,硬件 和 软件 
系统 的 互 连 而 提出 的 一 种 解决 方案 ;再 如 在 物流 集成 监控 公共 数据 采集 系统 中 的 无 线 射 频 
识别 (Radio Frequency Identification,RFID) 中 间 件 技术 也 作为 一 种 典型 的 中 间 件 技术 , 通 
常 作 为 物流 企业 安全 运输 监控 与 监管 货物 的 一 种 自动 识别 技术 , 它 通过 无 线 射 频 方 式 进行 
非 接触 双向 数据 通信 从 而 实现 对 运输 过 程 的 货物 这 个 目标 加 以 识别 ,以 达到 动态 监控 管理 
的 目标 。 由 于 从 运输 的 起 始点 可 以 直接 从 RFID 阅读 设备 获取 电子 标签 上 的 产品 电子 码 
(Electronic Product Code,EPC) 数 据 会 产生 大 量 的 元 余数 据 , 而 且 该 数据 不 能 被 应 用 程序 
直接 使 用 。 为 考虑 与 各 种 阅读 设备 的 兼容 ,必须 设置 运用 一 种 类 似 组 建 的 工具 将 该 RFID 
阅读 设备 系统 所 涉及 的 软件 与 硬件 接口 内 容 有 机 衔接 起 来 ,该 系统 称 为 RFID 数据 采集 中 
间 件 ,通过 对 运输 相关 的 源 标签 数据 进行 处 理 生 成 应 用 程序 级 别 事件 (Application Level 
Event,ALE) 数 据 , 实 现 对 宛 余数 据 的 过 滤 和 整合 ,通过 中 间 件 中 的 硬件 适配器 和 逻辑 阅读 
器 配置 实现 对 各 种 硬件 设施 的 灵活 兼容 ,从 而 可 以 实现 基于 RFID 数据 采集 中 间 件 的 数据 
仓库 综合 管理 系统 ,进而 实现 了 对 运输 过 程 中 整个 供应 链 的 物品 进行 实时 的 跟踪 和 管理 的 
目标 。 在 国内 有 许多 成 功 应 用 RFID 数据 采集 中 间 件 的 案例 ,如 上 海港 口 的 现代 化 运输 与 
高 效 管理 中 ,采用 了 中 间 件 技术 ,实现 了 安全 运输 与 高 效 管理 的 目标 。 如 “基于 XML 的 
异 构 数据 库 集成 中 间 件 ”的 应 用 ,也 是 数据 仓库 底层 的 数据 采集 系统 不 可 缺少 的 应 用 技 
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术 与 方法 ,为 实现 关系 数据 到 XML 数据 的 转化 与 集成 ,运用 基于 XML 的 异 构 数 据 库 集 
成 中 间 件 的 解决 方案 ,该 中 间 件 实现 了 数据 共享 发布 和 应 用 及 对 集成 信息 的 访问 提供 
了 支持 。 

(2) 数据 仓库 系统 的 中 间 件 ,如 基于 UML 数据 仓库 系统 的 实现 ,从 根本 上 解决 了 来 自 
数据 仓库 底层 数据 过 渡 到 公共 机 制 即 公共 信息 平台 上 的 多 层次 (多 系统 、 复 杂 类 型 的 ) 信 息 
资源 查询 服务 模式 ,并 引入 数据 挖掘 技术 和 信息 搜索 引擎 技术 对 资源 数据 进行 深加工 ,以 达 
到 信息 增值 的 目标 。 

(3) 基于 数据 仓库 决策 系统 的 中 间 件 ,如 一 个 典型 的 数据 仓库 系统 是 一 种 系统 体系 结 
构 ,一 般 有 三 层 , 最 底层 是 数据 仓库 本 身 ; 最 上 层 是 决策 支持 与 分 析 工 具 , 例 如 决策 支持 系 
BE ,数据 挖掘 、 联 机 分 析 处 理 等 ;中 间 的 一 层 是 其 中 间 件 。 在 数据 仓库 系统 中 的 中 间 件 内 容 
包括 数据 仓库 的 管理 工具 ,比如 HP 公司 的 OpenView 产品 就 能 够 提供 这 些 功能 ,另外 ， 
Informix 的 Metacube Warehouse Manager 为 用 户 提供 了 图 形 用 户 界面 (Graphical User 
Interface,GUI) ,可 以 有 效 地 对 元 数据 进行 管理 ;再 比如 Oracle 公司 的 Oracle 融合 中 间 件 
是 一 组 基于 标准 、 久 经 客户 考验 的 领先 软件 产品 , 它 包含 许多 工具 和 服务 ,如 J2EE 和 开发 
人 员工 具 、 集 成 服务 .业务 智能 .协作 和 内 容 管理 。 

中 间 件 是 伴随 着 网 络 应 用 的 发 展 而 逐渐 成 长 起 来 的 技术 体系 。 最 初 的 中 间 件 发 展 驱动 
力 需要 有 一 个 公共 的 标准 的 应 用 开发 平台 来 屏蔽 不 同 操作 系统 之 间 的 环境 和 应 用 程序 编程 
接口 (Application Programming Interface,API) 差 异 ,也 就 是 所 谓 操 作 系 统 与 应 用 程序 之 间 
“中 间 ”的 这 一 层 称 为 中 间 件 。 但 随 着 网 络 应 用 的 需求 ,解决 不 同系 统 之 间 的 网 络 通信 、 安 
全 .事务 的 性 能 、 传 输 的 可 靠 性 .语义 的 解析 数据 和 应 用 的 整合 这 些 问题 , 变 成 中 间 件 的 更 
重要 的 驱动 因素 。 因 此 ,相继 出 现 了 解决 网 络 应 用 的 交易 中 间 件 .消息 中 间 件 、 集 成 中 间 件 
等 各 种 功能 性 的 中 间 件 技术 和 产品 。 


2.5.2 中 间 件 技术 在 数据 仓库 系统 中 数据 采集 的 应 用 


以 下 的 应 用 来 源 于 作者 主持 的 云南 航务 海事 综合 管理 系统 的 研究 项 目 ,该 项 目 已 经 正 
式 运 行 。 

1. 系统 的 建设 体系 

该 系统 的 建设 体系 是 以 数据 仓库 系统 的 模式 来 建立 与 实施 的 ,系统 分 为 四 个 层面 ,如 
图 2.9 所 示 。 

第 一 ,数据 层 建设 层面 : 以 实现 数据 资源 整合 为 目标 的 基础 建设 ,主要 包括 基础 数 
据 库 建 设 .云南 水 路 数据 交换 标准 的 建设 .数据 交换 机 制 的 建设 。 也 称 这 个 层面 的 内 
容 为 数据 采集 系统 ,主要 包括 源 数 据 的 整合 与 标准 化 和 基础 (标准 ) 数 据 库 的 建立 两 部 
分 内 容 。 

第 二 ,业务 系统 建设 层面 : 以 提高 云南 水 路 行业 管理 信息 化 水 平 为 目标 的 各 航务 海事 
业务 系统 的 建设 开发 ,应 用 数据 库 的 建设 也 属于 业务 系统 建设 的 范畴 。 

第 三 ,综合 平台 建设 层面 : 航务 海事 综合 平台 建设 是 本 次 项 目 建设 的 重点 ,主要 包括 四 
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: 协同 办 公平 台 、 航 务 平台 ESE 、 综 合 业务 平台 。 
操作 整合 .系统 整合 及 数据 整合 为 一 体 的 公共 平台 。 

第 四 ,门户 网 站 建设 层面 : 主要 包括 内 网 网 站 建设 和 外 网 网 站 建设 。 内 网 网 站 建设 目 
标 用 户 为 航务 局 内 部 用 户 、 云 南 水 路 系统 内 部 用 户 、 云 南 交通 系统 内 部 用 户 。 外 网 网 站 建设 
主要 目标 用 户 为 公众 、 企 业 等 社会 用 户 。 


图 2.9 系统 的 建设 体系 


图 2.9 对 应 的 系统 整体 结构 如 图 2. 10 所 示 。 


因为 本 系统 属于 数据 仓库 的 建设 模式 ,所 以 其 中 的 每 个 层面 上 的 功能 都 涉及 到 中 间 件 
的 建设 。 具 体 中 间 件 有 : 


(1) 在 数据 层 建设 层面 上 的 中 间 件 即 数据 整合 系统 中 间 件 。 


(2) 由 于 业务 系统 建设 层面 的 所 有 业务 管理 数据 库 的 数据 都 来 源 于 其 底层 的 数据 整合 
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图 2. 10 


系统 整体 结构 


系统 ,因此 ,本 层面 的 中 间 件 仍然 是 数据 采集 系统 中 间 件 。 
(3) 由 于 航务 海事 综合 平台 层面 的 每 个 子平 台 都 是 多 系统 和 跨 系统 的 公共 机 制 平台 ， 
所 以 在 其 中 的 各 个 系统 在 业务 流程 的 定制 与 自 定义 过 程 中 存在 中 间 件 技术 ,具有 代表 的 是 
协同 办 公平 台 。 
(4) 在 门户 网 站 建设 层面 上 的 中 间 件 有 消息 的 传递 .电子 邮件 的 传输 、 数 据 文件 的 传 


输 等 。 


以 下 为 节省 篇 幅 , 仅 举 数据 采集 系统 与 协同 管理 的 中 间 件 的 例子 。 


2. 基于 数据 整合 系统 的 中 间 件 应 用 
数据 整合 系统 的 中 间 件 应 用 如 图 2. 11 所 示 。 
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其 中 的 XML 技术 为 数据 交换 中 的 不 可 缺少 的 中 间 件 技术 , 即 在 系统 的 数据 整合 过 
中 ,将 具体 地 划分 技术 、 机 制 与 基础 组 件 的 形式 ,可 以 用 图 2. 12 所 示 的 航务 海事 综合 平台 
源 整合 的 结构 。 
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图 2.12 航务 海事 综合 平台 资源 整合 的 结构 


1) 单 点 登录 实现 机 制 

办 公 系 统 使 用 的 核心 是 自行 开发 的 双 驱 动工 作 流 引擎 ,该 工作 流 引 擎 的 特点 是 将 工作 
内 容 的 定制 从 流程 驱动 中 独立 出 来 ,就 大 多 数 现 有 的 工作 流 引 擎 将 工作 流 定义 作为 流程 驱 
动 的 一 个 外 设 部 件 或 不 提供 可 定制 工作 内 容 的 功能 。 本 机 人 制 所 采用 的 技术 有 单 点 登录 实现 
机 制 ( 见 图 2. 13) J2EE 技术 架构 .基于 XML 技术 的 数据 标准 制定 .Web Service 技术 .基于 
中 间 标 准 容器 的 系统 能 入 技术 、 独 立 的 访问 控制 设计 技术 。 
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图 2.13 单 点 登录 实现 机 制 


2) 数据 整合 结构 
数据 整合 结构 如 图 2. 14 所 示 。 
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图 2.14 数据 整合 结构 


3) 数据 交换 机 制 

数据 交换 机 制 如 图 2. 15 所 示 ,主要 是 实现 应 用 系统 和 应 用 数据 库 与 基础 数据 库 的 数据 
访问 和 数据 交换 ,为 了 降低 数据 交换 的 数据 层面 耦合 度 ,数据 接口 层 采 用 分 层 设计 ,分 为 数 
据 访 问 接口 与 数据 交换 的 数据 对 象 层 。 数 据 接 口 包括 数据 访问 接口 和 数据 交换 接口 ,目的 
是 将 数据 的 访问 方式 与 数据 访问 对 象 独 立 开 。 数 据 访 问 接口 负责 对 基础 数据 库 的 物理 访 
问 ,数据 交换 接口 负责 数据 交换 的 内 容 和 方式 。 这 是 一 种 典型 的 基于 数据 采集 系统 的 中 间 
件 技术 的 应 用 例子 。 

这 种 设计 的 优点 在 于 , 当 基 础 数据 库 如 部 署 或 数据 库 类 型 等 环境 形式 发 生变 化 时 , 仅 需 
修改 访问 接口 。 当 访问 内 容 或 格式 发 生变 化 时 仅 用 修改 数据 交换 接口 。 数 据 接口 分 层 实 现 
可 极 大 提高 数据 交换 的 兼用 型 和 扩展 性 。 数 据 接口 的 重点 是 数据 交换 接口 的 建设 ,数据 交 
换 接口 支持 三 种 数据 交换 模式 : 数据 库 适 配器 模式 .API Bist SOA 模式 。 

4) 协同 办 公 机 制 

协同 办 公 机 制 如 图 2. 16 所 示 , 其 中 的 业务 工作 处 理 实现 机 理 如 图 2.17 所 示 。 

5) 组 件 实现 

组 件 实现 (参见 图 2. 18) ,其 中 的 过 程 监控 预期 效果 如 图 2. 19 所 示 。 

结构 实现 的 例子 如 图 2. 20 所 示 。 
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图 2.17 业务 工作 处 理 实现 机 理 
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图 2.18 组 件 实现 
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图 2. 19 过 程 监控 预期 效果 
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图 2.24 协同 办 公 部 分 运行 界面 (4) 
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2.6 小 经 


本 章 重 点 研究 数据 采集 、 集 成 技术 和 数据 预 处 理 方法 ,由 于 数据 采集 的 数据 对 象 种 类 和 
数据 源 复杂 ,对 于 时 间 序 列 、Web 数据 、 多 媒体 数据 和 空间 数据 这 四 类 特殊 种 类 的 数据 采集 
需求 做 出 重点 阐述 。 在 数据 集成 技术 方面 主要 介绍 了 3G MIS 的 集成 技术 、 异 构 数 据 的 
集成 和 集成 系统 开发 技术 ;在 数据 预 处 理 方面 主要 介绍 数据 清理 数据 融合 .数据 变换 和 数 
据 归 约 操作 ,重点 研究 基于 样本 数据 划分 的 通用 数据 挖掘 模型 系统 ;最 后 介绍 基于 数据 仓库 
系统 中 数据 采集 系统 中 的 中 间 件 技术 的 应 用 实例 。 


.阐述 时 间 序 列 `Web 数据 、 多 媒体 数据 和 空间 数据 的 特征 。 
.列举 数据 集成 技术 。 

. 说 明 数 据 清 理 的 技术 方法 。 

.描述 数据 融合 的 技术 方法 。 

. 说 明 数 据 变换 的 相关 技术 方法 。 

.描述 数据 归 约 的 多 种 操作 方法 。 

. 描述 基于 样本 数据 划分 的 通用 数据 挖掘 模型 系统 。 

. 解释 中 间 件 技术 的 定义 与 分 类 。 


oo n o N A U Ne 
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党 3 章 ”多维 数据 分 折 与 组 织 


本 章 介 绍 联机 分 析 处 理 的 定义 、 特 点 和 一 般 的 评价 准则 。 从 概念 模型 .逻辑 模型 .物理 
模型 三 个 层面 阐述 了 多 维 数据 模型 与 结构 。 介 绍 多 维 数据 分 析 的 基本 操作 和 相关 工具 ,以 
及 不 同 的 多 维 分 析 工 具 的 特点 。 结 合 联机 分 析 处 理 和 数据 挖掘 的 优势 ,提出 联机 分 析 挖 掘 
的 概念 及 特征 。 


3.1 多 维 数据 分 析 概 述 


3.1.1 联机 分 析 处 理 的 定义 和 特点 


1. 联机 分 析 处 理 的 定义 

联机 分 析 处 理 (On-Line Analysis Processing,OLAP) 的 概念 最 早 是 由 关系 数据 库 之 父 
E.F.Codd 于 1993 年 提出 的 。Codd 认为 联机 事务 处 理 (On-Line Transaction Processing, 
OLTP) 已 不 能 满足 终端 用 户 对 数据 库 查 询 分 析 的 要 求 ,SQL 对 大 型 数据 库 的 简单 查询 也 不 
能 满足 用 户 分 析 的 需求 。 用 户 的 决策 分 析 需 要 对 关系 数据 库 进 行 大 量 计算 才能 得 到 结果 ， 
而 查询 的 结果 并 不 能 满足 决策 者 提出 的 需求 。 因 此 ,Codd 提出 了 多 维 数据 库 和 多 维 分 析 的 
概念 , 即 联机 分 析 处 理 。 

OLAP 是 针对 特定 问题 的 联机 数据 访问 和 分 析 。 通 过 对 信息 ( 维 数据 ) 的 多 种 可 能 的 
观察 形式 进行 快速 .稳定 ,一致 和 交互 性 的 存 取 ,允许 管理 决策 人 员 对 数据 进行 深入 观察 。 
OLAP 委员 会 对 联机 分 析 处 理 的 定义 为 : 使 分 析 人 员 ,管理 人 员 或 执行 人 员 能 够 从 多 种 角 
度 对 从 原始 数据 中 转化 出 来 的 ,能 够 真正 为 用 户 所 理解 的 ,并 真实 反映 企业 特性 的 信息 进行 
快速 、 一致. 交互 的 存 取 , 从 而 获得 对 数据 的 更 深入 了 解 的 一 类 软件 技术 。 

2. 联机 分 析 处 理 技术 的 特点 

OLAP 技术 的 主要 特点 有 两 个 : 一 是 在 线性 (On-line) ,表现 为 对 用 户 请求 的 快速 响应 
和 交互 操作 ;二 是 多 维 分 析 (Multi-dimension Analysis) ,也 是 OLAP 技术 的 核心 所 在 。 具 


体 特 征 可 分 为 以 下 四 点 : 
(1) 多 维 性 (Multi-dimensional) : 多 维 性 是 OLAP 的 关键 属性 。 系 统 必须 提供 对 数据 


的 多 维 视 图 分 析 ,包括 对 层次 维和 多 重 层 次 维 的 完全 支持 。OLAP 最 显著 的 特征 是 它 能 提 
供 数 据 的 多 维 概念 视图 。 在 OLAP 数据 模型 中 ,多 维 信息 被 抽象 为 一 个 立方 体 , 它 包括 维 
和 度量 。 维 就 是 观察 角度 ,而 度量 则 是 指标 值 。 多 维 结构 是 OLAP 的 核心 ,OLAP 展现 在 
用 户 面 前 的 就 是 一 幅 幅 多 维 视图 。 这 些 多 维 视图 能 使 最 终 用 户 从 多 角度 、 多 侧面 .多 层次 直 
观 地 考察 数据 仓库 中 的 数据 ,从 而 深入 地 理解 包含 在 数据 中 的 信息 及 其 内 涵 。 以 多 维 视图 
的 形式 把 数据 提供 给 用 户 , 既 迎合 了 用 户 的 思维 模式 又 减少 了 概念 上 的 混淆 ,同时 也 降低 了 
出 现 错误 解释 的 可 能 性 。 
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(2) 快速 性 (Fast) : 用 户 对 OLAP 的 快速 反应 能 力 有 很 高 的 要 求 。 一 般 认 为 OLAP R 
统 应 在 几 秒 内 对 用 户 的 分 析 请 求 做 出 响应 。 如 果 终 端 用 户 在 30 秒 内 没有 得 到 系统 响应 就 
会 变 得 不 耐烦 ,因而 可 能 失去 分 析 主 线索 ,影响 分 析 质 量 。 对 于 大 量 的 数据 分 析 要 达到 这 个 
速度 并 不 容易 ,因此 就 更 需要 一 些 技术 上 的 支持 ,如 专门 的 数据 存储 格式 、 大 量 的 事先 运算 、 
寺 别 的 硬件 设计 等 。 

(3) 可 分 析 性 (Analyzability): OLAP 系统 应 能 处 理 与 应 用 有 关 的 任何 逻辑 分 析 和 统 
计 分 析 。 尽 管 系统 可 以 事先 编程 ,但 并 不 意味 着 系统 定义 了 所 有 的 应 用 。 在 应 用 OLAP 的 
过 程 中 ,用 户 无 须 编程 就 可 以 定义 专门 计算 ,并 将 其 作为 分 析 的 一 部 分 ,以 用 户 所 希望 的 方 
式 给 出 报告 。 用 户 可 在 OLAP 平台 上 进行 数据 分 析 , 也 可 连接 到 其 他 外 部 分 析 工 具 上 。 

(4) 信息 性 (Information) : 不 论 数据 量 有 多 大 ,也 不 管 数 据 存 储 在 何 处 ,OLAP 系统 应 
能 及 时 获得 信息 ,并 且 管 理 大 容量 信息 。 这 里 有 许多 因素 需要 考虑 ,如 数据 的 可 复制 性 、 可 
利用 的 磁盘 空间 、OLAP 产品 的 性 能 以 及 数据 仓库 的 结合 度 等 。 

随 着 OLAP 技术 的 应 用 范围 日 渐 广 泛 ,出现 了 一 些 新 的 技术 ,如 面向 对 象 的 联机 分 析 
处 理 (Object-oriented OLAP, OOLAP)、 对 象 关系 的 联机 分 析 人 处 理 (Object Relational 
OLAP,OROLAP) ,分 布 式 联机 分 析 人 处理 (Distributed OLAP,DOLAP)、 时 态 联 机 分 析 处 理 
(Temporal OLAP, TOLAP). 


3.1.2 联机 分 析 处 理 的 评价 准则 


E. F. Codd 同时 提出 了 关于 OLAP 的 12 条 准则 来 描述 OLAP 系统 。 

准则 1: OLAP 模型 必须 提供 多 维 概念 模型 。 从 用 户 分 析 员 的 角度 来 看 ,整个 企业 的 视 
图 本 质 上 是 多 维 的 ,OLAP 模型 必须 提供 多 维 概 念 视图 ,因此 OLAP 的 概念 模型 也 应 是 多 
维 的 。 

准则 2: 透明 性 准则 。 无 论 OLAP 是 否 是 前 端 产 品 的 一 部 分 ,对 用 户 来 说 它 都 是 透明 
的 ,如 果 在 客户 /服务 器 结构 中 提供 OLAP 产品 ,那么 对 最 终 分 析 员 来 说 , 它 同样 也 应 透明 。 

准则 3: 存 取 能 力 准则 。OLAP 系统 不 仅 能 进行 开放 的 存 取 ,而 且 还 提供 高 效 的 存 取 策 
略 。OLAP 用 户 分 析 员 不 仅 能 在 公共 概念 视图 的 基础 上 对 关系 数据 库 中 的 企业 数据 进行 
分 析 ,而 且 在 公共 分 析 模 型 的 基础 上 还 可 以 对 关系 数据 库 、 非 关系 数据 库 和 外 部 存储 的 数据 
进行 分 析 。 

准则 4: 稳定 的 报表 性 能 。 当 数据 维 数 和 数据 的 综合 层次 增加 时 ,提供 给 最 终 分 析 员 的 
报表 能 力 和 响应 速度 不 应 该 有 明显 的 降低 和 减 慢 ,这 时 维护 OLAP 产品 的 易 用 性 和 低 复杂 

准则 5: 客户 /服务 器 体系 结构 。OLAP 是 建立 在 客户 /服务 器 体系 结构 上 的 , 它 要 求 多 
维 数据 库 能 够 被 不 同 的 应 用 和 工具 访问 到 ,服务 器 智能 地 以 最 小 的 代价 完成 多 种 服务 器 之 
间 的 映射 ,并 确定 它们 的 一 致 性 ,从 而 保证 透明 性 和 建立 统一 的 公共 概念 模式 、 人 逻辑 模式 和 
物理 模式 。 

准则 6: 维 的 等 同性 准则 。 每 一 个 数据 维 在 数据 结构 和 操作 能 力 上 都 是 等 同 的 ,系统 可 
以 将 附加 的 操作 能 力 授 给 所 选 维 , 但 必须 保证 该 操作 能 力 可 以 授 给 任意 的 其 他 维 , 即 要 求 维 
上 的 操作 是 公共 的 。 
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准则 7: 动态 稀 玻 矩阵 处 理 准 则 。OLAP 工具 的 物理 模型 必须 充分 适应 指定 的 分 析 模 
型 ,提供 最 优 的 稀疏 矩阵 处 理 ,这 是 OLAP 工具 所 应 遵循 的 最 重要 的 准则 之 一 。 

准则 8: 多 用 户 支 持 能 力 准 则 。 多 用 户 分 析 员 可 以 同时 工作 于 统一 分 析 模 型 上 或 者 在 
同 企 业 数据 上 建立 不 同 的 分 析 模 型 ,OLAP 工具 必须 提供 并 发 访问 、 数 据 完整 性 及 安全 性 
机 制 。 

准则 9: 非 受 限 的 跨 维 操作 。 多 维 数据 之 间 存 在 固有 的 关系 ,这 就 要 求 OLAP 工具 能 
自己 推导 而 不 是 由 最 终 用 户 明 确定 义 出 相关 的 计算 。 对 于 无 法 从 固有 关系 中 得 到 的 计算 ， 
要 求 系统 提供 计算 完备 的 语言 来 定义 计算 公式 。 

准则 10: 直观 的 数据 处 理 。 这 一 准则 要 求 数据 操纵 直观 易 懂 , 路 径 重 定位 、 向 上 综合 、 
向 下 挖掘 和 其 他 操作 都 可 以 通过 直观 方便 的 点 拉 操 作 完 成 。 

准则 11: 灵活 的 报表 生成 。 报 表 必 须 从 各 种 可 能 的 方面 显示 出 从 数据 模型 中 综合 出 的 
数据 和 信息 ,充分 反映 数据 分 析 模 型 的 多 维特 征 。 

准则 12: 非 受 限 的 维 与 维 的 层次 。OLAP 工具 的 维 数 不 小 于 15 维 ,用 户 分 析 员 可 以 在 
任意 给 定 的 综合 路 径 上 建立 任意 多 个 聚集 层次 。 

然而 ,E.F. Codd 提出 的 OLAP 的 12 条 准则 只 是 提供 了 一 种 数据 技术 的 观点 ,而 不 是 
基准 。 术 语 OLAP 被 用 来 很 好 地 描述 为 推动 公司 决策 制定 、 分 析 设 计 的 数据 库 和 使 其 所 指 
示 的 数据 仓库 的 数据 能 被 很 容易 访问 的 工具 。 


3.1.3 多 维 数据 分 析 的 主要 概念 


OLAP 的 目标 是 满足 决策 支持 或 者 满足 在 多 维 环境 下 特定 的 查询 和 报表 需求 , 它 的 技 
术 核 心 是 “ 维 ”, 下 面 对 这 个 概念 和 其 他 相关 概念 进行 介绍 。 

1. 维 (Dimension) 

维 是 人 们 观察 客观 世界 的 角度 ,是 一 种 高 层次 的 类 型 划分 。“ 维 ”一 般 包 含 着 层次 关系 ， 
这 种 层次 关系 有 时 会 相当 复杂 。 通 过 把 一 个 实体 的 多 项 重要 的 属性 定义 为 多 个 维 ,使 用 户 
能 对 不 同 维 上 的 数据 进行 比较 。OLAP 展现 在 用 户 面 前 的 是 一 幅 幅 多 维 视图 ,因此 OLAP 
也 可 以 说 是 多 维 数据 分 析 工 具 的 集合 。 例 如 : 企业 常常 关心 产品 销售 数据 随 着 时 间 推 移 而 
产生 的 变化 情况 ,这 是 从 时 间 的 角度 来 观察 产品 的 销售 ,所 以 时 间 是 一 个 维 (时 间 维 ); 企 业 
也 时 常 关心 自己 的 产品 在 不 同 地 区 的 销售 分 布 情况 ,这 是 从 地 理 分 布 的 角度 来 观察 产品 的 
销售 ,所 以 地 理 分 布 也 是 一 个 维 ( 地 理 维 ) ,其 他 还 有 产品 维 、 顾 客 维 等 。 

2. 维 的 层次 (Level) 

人 们 观察 数据 的 某 个 特定 角度 ( 即 某 个 维 ) 还 可 以 存在 细节 程度 不 同 的 各 个 描述 方面 ， 
我 们 称 多 个 描述 方面 为 维 的 层次 。 一 个 维 往 往 具有 多 个 层次 ,例如 描述 时 间 维 时 ,可 以 从 日 
期 .月份 .季度 .年 等 不 同 层次 来 描述 ,那么 日 期 月份. 季度、 年 等 就 是 时 间 维 的 层次 。 同 样 ， 
城市 .地 区 .国家 等 构成 了 地 理 维 的 层次 。 

3. 维 成 员 (Member) 

维 的 一 个 取 值 称 为 该 维 的 一 个 维 成 员 ,是 数据 项 在 某 维 中 位 置 的 描述 。 如 果 一 个 维 是 
多 层次 的 ,那么 该 维 的 维 成 员 由 各 个 不 同 维 层 次 的 取 值 组 合 而 成 。 例 如 ,时 间 维 具有 日 期 、 
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月 份 . 年 这 三 个 层次 ,分别 在 日 期 月份 .年 上 各 取 一 个 值 组 合 起 来 ,就 得 到 了 时 间 维 的 一 个 
维 成 员 , 即 “ 某 年 某 月 某 日 ”*。 一 个 维 成 员 并 不 一 定 在 每 个 维 层次 上 都 要 取 值 ,例如 “ 某 年 某 
月 ”“ 某 月 某 日 "“ 某 年 ”等 都 是 时 间 维 的 维 成 员 。 例 如 对 一 个 销售 数据 来 说 ,时 间 维 的 维 成 
员 “ 某 年 某 月 某 日 ”就 表示 该 销售 数据 是 “ 某 年 某 月 某 日 ”的 销售 数据 。 

4. 观察 变量 

变量 是 数据 的 实际 意义 , 即 描述 数据 是 “什么 ”。 例 如 ,数据 10 000 本 身 并 没有 意义 或 
意义 未 定 , 它 可 能 是 一 个 学 校 的 学 生 人 数 ,也 可 能 是 某 产品 的 单价 ,还 可 能 是 某 商品 的 销售 
量 等 。 在 OLAP 中 的 观察 变量 是 一 个 数值 型 数据 。 

5. 多 维 数组 

一 个 多 维 数组 可 以 表示 为 ( 维 1, 维 2,…', 维 2 变量 )。 例 如 : 若 日 用 品 销售 数据 是 按时 
间 、 地 区 和 销售 渠道 组 织 起 来 的 三 维 立 方 体 , 加 上 变量 销售 额 ,就 组 成 了 一 个 多 维 数组 (地 
区 ,时 间 ,销售 渠道 ,销售 额 ) ,如果 在 此 基础 上 再 扩展 一 个 产品 维 ,就 得 到 一 个 四 维 的 结构 ， 
其 多 维 数组 为 (产品 ,地 区 ,时 间 ,销售 渠道 ,销售 额 ) 。 


6. 数据 单元 (单元 格 ) 

多 维 数组 的 取 值 称 为 数据 单元 。 当 多 维 数据 的 各 个 维 都 选中 一 个 维 成 员 , 这 些 维 成 员 
的 组 合 就 唯一 确定 了 一 个 变量 的 值 。 那 么 数据 单元 就 可 以 表示 为 ( 维 1, 维 2,…, 维 ,变量 
的 值 )。 例 如 在 产品 、 地 区 、 时 间 和 销售 渠道 上 各 取 维 成 员 “ 笔 记 本 电脑 “"“ 上 海 *”“2000 年 
1 月 ”和 “批发 "后 就 唯一 确定 了 变量 “销售 额 * 的 一 个 值 ,假设 其 为 100 000, 则 该 数据 单元 表 
示 为 (笔记 本 电脑 ,上 海 ,2000 年 1 月 ,批发 ,100 000)。 


7. 多 维 数据 集 的 度量 值 

前 面 的 变量 在 实际 应 用 中 叫做 多 维 数据 集 的 度量 值 ,这 些 值 应 该 是 数字 。 度 量 值 是 多 
维 数据 集 的 核心 值 , 是 最 终 用 户 在 数据 仓库 应 用 中 所 需要 查看 的 数据 ,这 些 数据 一 般 是 销售 
量 、 成 本 和 费用 等 。 


3.2 多 维 数据 模型 与 结构 


3.2.1 多 维 数据 的 概念 模型 


多 维 数据 概念 模型 涉及 的 核心 任务 是 通过 信息 包 图 确定 数据 仓库 的 主题 和 大 部 分 元 数 
据 。 所 要 完成 的 任务 是 界定 系统 边界 ,确定 主要 的 主题 域 及 其 内 容 。 概 念 模型 设计 的 成 果 
是 在 原 有 数据 库 的 基础 上 建立 一 个 较为 稳固 的 概念 模型 。 

概念 模型 设计 也 就 是 通常 所 说 的 需求 分 析 ,在 与 用 户 交 流 的 过 程 中 ,确定 数据 仓库 所 需 
要 访问 的 信息 ,这 些 信息 包括 当前 、 将 来 以 及 与 历史 相关 的 数据 。 在 需求 分 析 阶 段 确定 操作 
数据 .数据 源 以 及 一 些 附 加 数据 ,设计 容易 理解 的 数据 模型 ,有 效 地 完成 查询 和 数据 之 间 的 
映射 。 

由 于 数据 仓库 的 多 维 性 ,利用 传统 的 数据 流程 图 进行 需求 分 析 已 不 能 满足 需要 。 超 立 
方 (Hypercube) 用 超出 三 维 的 表示 来 描述 一 个 对 象 ,显然 具备 多 维特 性 ,完全 可 以 满足 数据 
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仓库 的 多 维特 性 。 利 用 自 上 而 下 方法 设计 一 个 超 立方 体 的 步骤 为 

(1) 确定 模型 中 需要 抓 住 的 商业 过 程 ,例如 销售 活动 或 销售 过 程 ; 

(2) 确定 需要 捕获 的 值 ,例如 销售 数量 或 成 本 ,这 些 信息 通常 是 一 些 数值 ; 

(3) 确定 数据 的 粒度 , 亦 即 需要 捕获 的 最 低 一 级 的 详细 信息 。 

由 于 超 立 方 体 在 表现 上 缺乏 直观 性 ,尤其 当 维 度 超出 三 维 后 ,数据 的 采集 和 表示 都 比较 
困难 ,因此 可 以 采用 一 种 称 为 信息 包 图 的 方法 在 平面 上 展开 超 立 方 体 , 即 用 二 维 表格 反映 多 
维特 征 。 信 息 包 图 提供 了 一 个 用 多 维 空间 建立 用 户 信息 模型 的 方法 , 它 提 供 了 超 立 方 体 的 
可 视 化 表示 。 信 息 包 图 拥有 三 个 重要 对 象 : 指标 、 维 度 和 类 别 。 指 标 表 明 在 维度 空间 衡量 
商务 信息 的 一 种 方法 ,而 类 别 是 在 一 个 维度 内 为 了 提供 详细 分 类 而 定义 的 ,其 中 的 成 员 是 为 
了 辨别 和 区 分 特定 数据 而 设 。 

信息 包 图 集中 在 用 户 对 信息 包 的 需要 , 它 定 义 主题 内 容 和 主要 性 能 测试 指标 之 间 的 关 
系 ,其 目标 就 是 为 了 满足 用 户 需 要 。 利 用 信息 包 图 设计 概念 模型 需要 确定 三 大 内 容 : 

(1) 确定 指标 。 指 标 是 访问 数据 仓库 的 关键 所 在 ,是 用 户 最 关心 的 信息 。 成 功 的 信息 
包 可 以 保证 用 户 从 信息 包 中 获取 需要 的 各 个 性 能 指标 参数 。 

C2) 确定 维度 。 维 度 提供 了 用 户 访问 数据 仓库 信息 的 途径 ,对 应 超 立 方 体 的 每 一 面 ,位 
于 信息 包 图 的 第 一 行 的 每 一 个 栏目 中 。 图 3. 1 给 出 了 一 个 合适 的 贷款 分 析 的 信息 包 图 。 每 
一 维度 作为 信息 包 图 上 的 一 个 列 出 现 , 类 别 作为 信息 包 图 的 行 给 出 ,图 3. 1 共 六 列 ( 六 个 相 
关 因 素 ), 因 此 该 主题 属于 六 维 问题 。 通 过 对 物流 配送 业务 的 需求 分 析 ,发 现在 物流 配送 业 
务 中 ,主要 关注 的 问题 是 货物 的 调配 与 运输 费用 。 通 过 对 运输 时 间 ,配送 车 辆 的 选择 .配送 
货物 种 类 和 数量 进行 分 析 , 可 以 得 到 很 多 重要 的 信息 。 因 此 在 与 其 对 应 的 信息 包 ( 见 图 3. 2) 
中 给 出 了 时 间 维 度 .货物 维度 和 车 辆 维度 。 


合适 的 货款 分 析 (主题 ) 维度 


时 期 | 地 区 [货款 人 资产 负债 表 | 损益 表 | 货款 特点 
| 省 “| 货款 人 名 字 索 引 A-Z | 年初、 年末 | 净利 润 | 风险 利率 
季 | 市 “| 某 货款 人 ( 某 企业 ) 

区 | | 
la | | 


指标 /实际 情况 、 货 款额 外 负担 、 是 否 发 生 货 款 
图 3.1 合适 的 贷款 分 析 对 应 的 信息 包 图 


维度 2 
类 全 部 时 间 全 部 货物 全 部 车 
别 年 货物 分 类 车 辆 类 型 
月 单个 品种 单车 
时 
分 
度量 指标 : 运送 量 、 运 送 费 用 


图 3.2 货物 调配 分 析 对 应 的 信息 包 图 
rt 


(3) 确定 类 别 。 类 别 表 示 一 个 维度 包含 的 详细 信息 ,一 个 维度 内 最 低层 的 可 用 分 类 又 
称 为 详细 类 别 。 

如 果 在 一 张 平面 表格 上 描述 元 素 的 多 维 性 ,其 中 的 每 一 个 维度 用 平面 表格 的 某 列 表示 ， 
通常 的 维度 是 时 间 ,地 点 .产品 和 顾客 ,而 细 化 本 列 的 对 象 就 是 类 别 。 例 如 时 间 维 度 的 类 别 
可 以 细 化 到 年 .月 .日 ,甚至 小 时 。 平 面 表格 中 的 一 个 元 素 ( 对 应 超 立方 体 中 的 一 个 单元 格 ) 
可 以 表示 : 某 年 某 月 ,在 某 商店 的 某 类 产品 的 销售 额 。 创 建 信息 包 图 时 需要 确定 最 高 层 和 
最 低层 的 信息 需求 ,以 便 最 终 设计 出 包含 各 个 层次 需要 的 数据 仓库 。 对 于 复杂 的 商业 要 求 
进行 需求 分 析 时 ,有 时 一 张 信 息 包 图 不 能 反映 所 有 情况 ,可 能 需要 设计 不 同 的 信息 包 图 来 满 
足 全 部 需求 ,此 时 应 该 保证 多 个 信息 包 图 中 出 现 的 维度 信息 和 类 别 信息 完全 一 致 


3.2.2 多 维 数 据 的 逻辑 模型 


数据 仓库 侯 辑 模型 描述 了 数据 仓库 主题 的 逻辑 实现 ,目前 数据 仓库 的 馆 辑 建 模 主要 采 
用 维度 建 模 。 维 度 建 模 采 用 一 种 直观 的 标准 框架 结构 来 表现 数据 ,并 允许 进行 高 性 能 存 取 ， 
具有 非常 好 的 可 扩展 性 。 

以 信息 包 图 为 核心 的 多 维 数据 概念 模型 为 多 维 数据 的 逻辑 设计 提供 了 完备 的 概念 基 
础 。 同 信息 包 图 中 的 三 个 对 象 对 应 , 星 型 模式 拥有 三 个 逻辑 实体 : 维度 .指标 和 类 别 。 位 于 
星 型 图 中 心 的 实体 是 指标 实体 ,对 应 信息 包 图 中 的 指标 对 象 ;位 于 星 型 图 星 角 上 的 实体 是 维 
度 实体 ,对 应 信息 包 图 中 的 维度 对 象 ;而 详细 类 别 实体 , 它 对 应 信息 包 图 中 的 类 别 对 象 。 一 
个 维度 内 的 一 个 单元 就 是 一 个 类 别 ,代表 该 维度 内 的 一 个 单独 层次 。 


1, 星 型 模式 

星 型 模式 (Star Schema) 是 一 种 多 维 的 数据 模型 , 它 由 一 个 事实 表 (Fact Table) 和 一 组 
逻辑 上 围绕 这 个 事实 表 的 维 表 (Dimension Table) 组 成 。 处 在 中 间 的 是 事实 表 , 事 实 表 是 星 
型 模型 的 核心 ,用 于 存放 大 量 的 具有 业务 性 质 的 事实 数据 ,事实 表 中 包含 了 度量 属性 和 指向 
周围 维 表 的 外 码 , 即 事实 和 外 码 组 合成 的 事实 表 主 码 ; 维 表 位 于 事实 表 周 围 , 包 含 一 个 维 的 描 
述 信息 ;事实 表 中 的 一 个 事实 指向 每 个 维 表 中 的 一 个 元 组 。 事 实 表 中 存放 的 大 量 数据 ,是 同 主 
题 密 切 相关 的 ,用户 最 关心 的 ,对象 的 度量 数据 。 用 户 依 赖 于 维 表 中 的 维度 属性 ,对 事实 表 中 
的 事实 数据 进行 查询 .分析 ,从 而 得 到 支持 决策 的 数据 。 星 型 模式 的 结构 图 如 图 3. 3 所 示 。 

通过 分 析 某 零售 百货 连锁 店 的 数据 仓库 ,可 以 得 到 其 星 型 模式 结构 图 如 图 3.4 所 示 。 
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使 用 星 型 模型 主要 有 两 方面 的 原因 : 

C1) 提高 查询 的 效率 。 采 用 星 型 模式 设计 的 数据 仓库 的 优点 是 由 于 数据 的 组 织 已 经 过 
预 处 理 , 主 要 数据 都 在 庞大 的 事实 表 中 ,所 以 只 要 扫描 事实 就 可 以 进行 查询 ,而 不 必 把 多 个 
庞大 的 表 连 接 起 来 ,查询 访问 效率 较 高 。 同 时 由 于 维 表 一 般 都 很 小 ,甚至 可 以 放 在 高 速 缓存 
中 ,与 事实 表 作 连接 时 其 速度 较 快 。 

D 便于 用 户 理解 。 对 于 非 计算 机 专业 的 用 户 而 言 , 星 型 模型 比较 直观 ,通过 分 析 星 型 
模型 ,很 容易 组 合 出 各 种 查询 。 


2. 雪花 模式 

雪花 模式 (Snowflake Schema) 是 星 型 模式 的 扩展 和 进一步 规范 化 ,结构 模式 图 形 类 似 
雪花 的 形状 , 维 表 分 解 成 与 事实 表 直 接 关联 的 主 维 表 和 与 主 维 表 关 联 的 次 维 表 。 即 维 表 除 
了 具有 星 型 模型 中 的 维 表 功 能 外 ,还 连接 上 对 事实 表 进行 详细 描述 的 详细 类 别 表 , 通 过 对 事 
实 表 在 有 关 维 上 的 详细 描述 ,达到 缩小 事实 表 、 提 高 查询 效率 的 目的 。 雪 花 模 型 比 星 型 模型 
增加 了 层次 结构 ,体现 了 维 的 不 同 粒度 的 划分 。 雪 花 结构 的 模式 图 如 图 3. 5 所 示 。 


HR 维 表 类 列表 
图 3.5 雪花 模式 结构 图 


通过 分 析 某 零售 百货 连锁 店 的 数据 仓库 ,可 以 得 到 其 雪花 模式 结构 图 如 图 3.6 所 示 。 
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图 3.6 ”连锁 店 销售 数据 仓库 雪花 模式 
雪花 模型 的 优点 是 


(1) 在 一 定 程度 上 减少 了 存储 空间 ; 

(2) 规范 化 的 结构 更 容易 更 新 和 维护 。 
雪花 模型 也 存在 以 下 缺点 : 

(1) 雪花 模型 比较 复杂 ,用户 不 容易 理解 ; 
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C2) 浏览 内 容 相对 困难 ; 
G) 额外 的 连接 会 使 查询 性 能 下 降 。 


3. 星系 模式 

星系 模式 (Galaxy Schema): 当 多 个 主题 之 间 具 有 公共 的 维 时 ,可 以 把 围绕 这 些 主题 组 
织 的 星 型 模式 通过 共享 维 表 , 把 事实 表 相 互 连 接 起 来 。 这 种 多 个 事实 表 共 享 维 表 的 星 型 模 
式 集 称 为 星系 模式 。 星 系 模式 结构 图 如 图 3.7 所 示 。 


图 3.7 星系 模式 结构 图 


通过 分 析 货 物 销 售 与 配送 的 过 程 , 得 到 其 星系 模型 图 如 图 3. 8 所 示 。 
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图 3.8 连锁 店 销售 与 配送 多 维 数据 的 星系 模型 图 


虽然 星 型 模式 、 雪 花 模 式 和 星系 模式 这 些 结构 化 的 多 维 数据 模型 都 考虑 了 如 何 表示 多 
维 数据 模式 中 的 多 维 层次 结构 的 问题 ,但 仍 具 有 局 限 性 ,雪花 模式 可 表示 维 层 次 结构 ,但 要 
求 维 层次 的 路 径 长 度 都 一 样 , 且 同 一 层次 树 上 的 同 层 节 点 具有 相同 的 属性 集 。 为 了 更 好 地 
表示 数据 仓库 系统 中 多 维 数据 的 层次 结构 ,需要 采用 支持 不 平衡 、 异 构 的 维 层次 结构 的 多 维 
数据 模型 ,充分 表达 数据 仓库 的 复杂 数据 结构 ,并 将 其 作为 一 种 具有 普遍 适用 性 和 灵活 性 的 
多 维 数据 组 织 的 形式 化 定义 与 知识 描述 方法 ,具体 请 参考 本 书 第 1. 3 节 的 相关 内 容 。 


3.2.3 多维 数 据 的 物理 模型 


物理 模型 设计 的 主要 任务 是 确定 数据 的 存储 结构 、 索 引 策略 .数据 存放 位 置 及 存储 分 配 
等 。 确 定数 据 仓库 实现 的 物理 模型 ,要求 设 计 人 员 必 须 做 到 : 全 面 了 解 所 选用 的 数据 库 管 
理 系统 ,特别 是 存储 结构 和 存 取 方 法 ;了 解数 据 环境 .数据 的 使 用 频 度 、 使 用 方式 数据 规模 
以 及 响应 时 间 要 求 等 ,这 些 是 对 时 间 和 空间 效率 进行 平衡 和 优化 的 重要 依据 ;了 解 外 部 存储 
设备 的 特性 ,如 分 块 原则 、 块 大 小 的 规定 、 设 备 的 1/O 特性 等 。 
。 Z 


1. OLAP 多 维 数据 结构 

OLAP 系统 按照 其 存储 器 的 数据 存储 格式 可 以 分 为 关系 OLAP (Relational OLAP, 
ROLAP), £ #@ OLAP (Multi-dimensional OLAP, MOLAP) 和 混合 型 OLAP (Hybrid 
OLAP,HOLAP) 三 种 类 型 。 

(1) ROLAP 表示 基于 关系 数据 库 的 OLAP 实现 。 以 关系 数据 库 为 核心 ,以 关系 型 结 
构 进 行 多 维 数据 的 表示 和 存储 。ROLAP 将 多 维 数据 库 的 多 维 结构 划分 为 两 类 : 一 类 是 事 
实 表 ,用 来 存储 数据 和 维 关键 字 ; 另 一 类 是 维 表 , 即 对 每 个 维 至 少 使 用 一 个 表 来 存放 维 的 层 
次 ,成员 类 别 等 维 的 描述 信息 。 维 表 和 事实 表 通 过 主 关键 字 和 外 关键 字 联 系 在 一 起 ,形成 了 
“ 星 型 模式 ”。 对 于 层次 复杂 的 维 , 为 避免 元 余数 据 占 用 过 大 的 存储 空间 ,可 以 使 用 多 个 表 来 
描述 , 即 形成 “雪花 模式 ”。ROLAP 将 分 析 用 的 多 维 数据 存储 在 关系 数据 库 中 并 根据 应 用 
的 需要 有 选择 地 定义 一 批 实 视图 作为 表 也 存储 在 关系 数据 库 中 。 不 必 将 每 一 个 SQL 查询 
都 作为 实 视图 保存 ,只 定义 那些 应 用 频率 比较 高 .计算 工作 量 比 较 大 的 查询 作为 实 视 图 。 对 
每 个 针对 OLAP 服务 器 的 查询 ,优先 利用 已 经 计算 好 的 实 视图 来 生成 查询 结果 以 提高 查询 
效率 。 同 时 用 作 ROLAP 存储 器 的 关系 数据 库 管理 系统 (Relational DataBase Management 
System,RDBMS) 也 针对 OLAP 作 相 应 的 优化 ,比如 并 行 存储 、 并 行 查询 、 并 行 数据 管理 、 基 
于 成 本 的 查询 优化 、 位 图 索引 、SQL 的 OLAP 扩展 (Cube,Rollup) 等 。 

(2) MOLAP 表示 基于 多 维 数据 组 织 的 OLAP 实现 。 以 多 维 数据 组 织 方 式 为 核心 ,也 
就 是 说 ,MOLAP 使 用 多 维 数 组 存储 数据 。 多 维 数据 在 存储 中 将 形成 “立方 块 (Cube)” 的 结 
构 ,在 MOLAP 中 对 “立方 块 ” 的 “旋转 ”“ 切 块 "“ 切 片 ” 是 产生 多 维 数据 报表 的 主要 技术 。 
MOLAP 将 OLAP 分 析 所 用 到 的 多 维 数据 在 物理 上 存储 为 多 维 数 组 的 形式 ,形成 “立方 块 ” 
的 结构 。 维 的 属性 值 被 映射 成 多 维 数组 的 下 标 值 或 下 标的 范围 ,而 总 结 数据 作为 多 维 数组 
的 值 存储 在 数组 的 单元 中 。 由 于 MOLAP 采用 了 新 的 存储 结构 ,从 物理 层 起 实现 ,因此 又 
称 为 物理 OLAP(Physical OLAP) ;而 ROLAP 主要 通过 一 些 软件 工具 或 中 间 软 件 实现 , 物 
理 层 仍 采用 关系 数据 库 的 存储 结构 ,因此 称 为 虚拟 OLAP(Virtual OLAP), 

(3) HOLAP 表示 基于 混合 数据 组 织 的 OLAP 实现 。 如 低层 是 关系 型 的 ,高 层 是 多 维 
矩阵 型 的 。 这 种 方式 具有 更 好 的 灵活 性 。 由 于 MOLAP 和 ROLAP 有 着 各 自 的 优点 和 缺 
点 , 且 它 们 的 结构 馆 然 不 同 ,给 分 析 人 员 设 计 OLAP 结构 提出 了 难题 。 因 此 一 个 新 的 
OLAP 结构 -混合 型 OLAP 被 提出 , 它 能 把 MOLAP 和 ROLAP 两 种 结构 的 优点 结合 起 来 。 
迄今 为 止 ,对 HOLAP 还 没有 一 个 正式 的 定义 。 但 很 明显 ,HOLAP 结构 不 应 该 是 MOLAP 
与 ROLAP 结构 的 简单 组 合 ,而 是 这 两 种 结构 技术 优点 的 有 机 结合 ,能 满足 用 户 各 种 复杂 的 
分 析 请 求 。 

实现 HOLAP 的 方法 有 三 种 : 

O 同时 提供 多 维 数 据 库 (Multi-Dimensional DataBase. MDDB) 和 RDBMS, ik FRA 
员 选 择 。 采 用 这 种 方法 ,开发 人 员 可 以 选择 把 信息 存放 在 MDDB 中 或 RDBMS 中 ,但 不 能 
同时 存放 在 MDDB 和 RDBMS 中 。 

@ 在 运行 时 把 对 关系 数据 库 的 查询 结果 存 人 多 维 数 据 库 。HOLAP 系统 利用 开发 人 
员 定 义 的 一 个 静态 结构 的 多 维 模 型 来 暂 存在 运行 时 检索 出 的 数据 。 当 客户 端 提 交 一 个 分 析 
请 求 时 ,系统 先 检查 这 个 多 维 结构 缓存 中 是 否 有 分 析 所 需要 的 数据 ,如 果 没 有 , 则 产生 SQL 
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语句 从 RDBMS 中 把 相应 的 数据 载 和 多维 数据 的 缓存 中 。 

@ 利用 一 个 多 维 数据 库存 储 高 级 别 的 综合 数据 ,同时 用 RDBMS 存储 细节 数据 。 这 种 
方法 是 如 今 被 认为 实现 HOLAP 结构 较为 理想 的 方法 , 它 结合 了 MOLAP 和 ROLAP 的 优 
点 。 在 该 方法 中 ,客户 端 用 户 提交 一 个 分 析 请 求 , 由 系统 从 MDDB 中 提取 经 过 综合 的 数据 
或 从 RDBMS 提取 细节 数据 。 


2. OLAP 多 维 数据 结构 的 比较 

1) 存储 结构 上 的 比较 

在 ROLAP 中 对 数据 进行 单项 查询 时 ,比较 容易 处 理 ; 但 对 数据 进行 钼 取 时 ,就 比较 麻 
烦 了 ,需要 对 ROLAP 的 所 有 数据 进行 查询 ,并 进行 汇总 , 系统 的 效率 必然 降低 。 而 
MOLAP 则 只 需要 对 库 按 行 或 列 进行 统计 即 可 ,其 性 能 远 优 于 MOLAP。MOLAP 在 
OLAP 系统 中 的 优势 ,表现 在 查询 速度 高 和 结构 清晰 明了 。 但 当 维 数 扩展 到 三 维 或 更 高 的 
维度 时 ,成 了 超 立 方 体 的 结构 ,其 数据 的 存储 是 由 许多 类 似 于 数组 的 对 象 来 完成 的 ,这 些 对 
象 中 包含 经 过 压缩 的 索引 和 指针 ,利用 这 些 索 引 和 指针 将 许多 存储 数据 的 单元 块 联结 在 一 
起 。 实 际 中 ,有 多 维 数据 的 稀疏 矩阵 问题 。MOLAP 在 实际 应 用 中 的 数量 存储 往往 增长 较 
快 , 尤 其 在 所 创建 的 多 维 模式 中 拥有 多 个 维 时 。 但 在 所 增加 的 空间 中 有 的 可 能 没有 实际 值 
出 现 , 会 使 多 维 表 形 成 一 个 稀疏 矩阵 ,因此 而 浪费 大 量 空间 。 即 使 采用 各 种 方法 来 压缩 ,也 
不 能 根本 解决 ,这 势必 将 造成 空间 需求 爆炸 性 增长 。 而 ROLAP 中 使 用 的 关系 数据 库 ,一 般 
不 会 出 现 稀 疏 和 矩阵 的 情况 ,在 实际 应 用 中 ,只 要 磁盘 空间 足够 大 ,ROLAP 数据 库 可 以 支持 
无 限 增长 的 数据 存储 要 求 , 且 大 多 数 的 多 维 数据 库 的 容量 不 能 无 限 增长 。 由 于 ROLAP 中 
的 事实 表 和 维 表 都 要 使 用 二 维 关系 表 存 放 , 在 多 维 数据 集 的 构造 中 ,必须 通过 维 表 和 事实 表 
的 联结 来 实现 。 

2) 数据 更 新 上 的 比较 

MOLAP 需要 在 建立 多 维 数据 库 前 确定 各 个 维度 以 及 维度 的 层次 关系 。 在 多 维 数据 库 
建立 之 后 ,如 果 要 增加 新 的 维度 , 则 多 维 数据 库 通常 需要 重新 建立 。 而 ROLAP 增加 一 个 维 
度 只 是 增加 一 张 维 表 并 修改 事实 表 , 系统 中 其 他 维 表 不 需要 修改 ,因此 ROLAP 对 于 维度 的 
变更 有 很 好 的 适应 性 。 由 于 多 维 数据 通过 预 综 合 处 理 来 提高 速度 , 当 数据 频繁 地 变化 时 ， 
MOLAP 需要 进行 大 量 的 重新 计算 ,甚至 重新 建立 索引 ,乃至 重 构 多 维 数据 库 。 而 在 
ROLAP 中 预 综 合 处 理 通 常 由 设计 者 根据 需求 制定 ,因此 灵活 性 较 好 ,对 于 数据 变化 的 适应 

3) 性 能 上 的 比较 

在 ROLAP 中 ,多 维 数据 立方 体 并 没有 真正 存在 ,通常 在 接收 OLAP 请 求 后 ,ROLAP 
服务 器 需要 将 SQL 语句 转化 为 多 维 存 取 语句 ,并 利用 连接 运算 拼合 出 (部 分 ) 多 维 数据 立方 
体 , 因 此 ,ROLAP 的 响应 时 间 较 长 。MOLAP 是 专 为 OLAP 设计 的 ,能 够 自动 建立 索引 ,在 
存 取 速度 上 占 优势 。 但 是 , MOLAP 在 预计 算 ,系统 响应 时 间 上 的 优点 是 通过 牺牲 存储 空间 
换 来 的 。 对 于 HOLAP 来 说 ,常用 的 维度 和 维 层次 ,使 用 多 维 数据 表 来 记录 ;对 于 不 常用 的 
维度 和 数据 ,采用 类 似 于 ROLAP 星 型 结构 来 存储 。 它 在 存储 容量 上 小 于 MOLAP 方式 。 
数据 存 取 速度 上 又 低 于 MOLAP。 在 性 能 上 都 介 于 MOLAP 和 ROLAP 之 间 , 其 技术 复杂 
度 高 于 ROLAP 和 MOLAP。HOLAP 技术 从 理论 上 来 说 较 成 熟 ,而 实践 中 只 能 根据 具体 
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情况 来 决定 应 用 哪 种 结构 。 决 定 因素 很 多 ,应 用 规模 是 一 个 主要 因素 。 如 果 需 要 建立 一 个 
大 型 的 ,功能 复杂 的 企业 级 数据 仓库 , 那 就 可 能 选择 ROLAP。 如 果 希 望 建 立 一 个 目标 单 
一 、 维 数 不 是 很 多 的 分 析 型 数据 集 市 ,那么 MOLAP 可 能 是 一 个 较 佳 的 选择 。 


3.3 多维 数据 分 析 应 用 与 工具 


3.3.1 多 维 数据 分 析 的 基本 操作 


数据 仓库 中 的 多 维 数 据 根 据 其 维度 可 以 用 立方 体 或 者 超 立 方 体 表 示 。 如 果 数 据 的 维度 
超过 三 个 ,我们 可 以 利用 立方 体 的 思想 建立 “ 超 立 方 体 ”来 表示 。 多 维 分 析 是 指 对 以 多 维 形 
式 组 织 起 来 的 数据 采取 多 种 分 析 操 作 ,以 求 剖析 数 据 , 使 分 析 者 .决策 者 能 从 多 个 角度 、 多 侧 
面 地 观察 数据 库 中 的 数据 ,从 而 深入 地 了 解 包含 在 数据 中 的 信息 内涵。 这些 操作 包括 切片 
(Slice) , WJ4R (Dice) .旋转 (Rotate) FAH (Drill) 等 。 多 维 分 析 方 式 迎 合 了 人 的 思维 模式 , 因 
此 ,减少 了 混淆 并 且 降 低 了 出 现 错误 解释 的 可 能 性 。 

(1) 切片 和 切 块 是 在 一 部 分 维 上 选 定 值 后 ,关心 度量 数据 在 剩余 维 上 的 分 布 。 在 多 维 
分 析 过 程 中 ,如 果 要 对 多 维 数据 集 的 某 个 维 选 定 一 维 成 员 ,这 种 选择 操作 ,就 可 以 称 为 切片 。 
如 果 对 两 个 或 两 个 以 上 的 维 选 定 维 成 员 ,这 种 选择 操作 可 以 称 为 切 块 。 实 际 上 , 切 块 操作 也 
可 以 看 成 是 进行 多 次 切片 操作 以 后 ,将 每 次 切片 操作 所 得 到 的 切片 重合 在 一 起 而 形成 的 。 
在 多 维 数 据 结 构 中 , 按 二 维 进行 切片 , 按 三 维 进行 切 块 ,可 得 到 所 需要 的 数据 。 如 在 “城市 、 
产品 \ 时 间 ” 三 维 立 方 体 中 进行 切 块 和 切片 ,可 得 到 各 城市 ,各 产品 的 销售 情况 。 其 中 有 两 个 
重要 的 概念 必须 掌握 : 一 个 是 多 维 数据 集 的 切片 数量 多 少 是 由 所 选 定 的 那个 维 的 维 成 员 数 
量 的 多 寞 所 决定 的 ; 另 一 个 是 进行 切片 操作 的 目的 是 使 人 们 能 够 更 好 地 了 解 多 维 数 据 集 , 通 
过 切片 的 操作 可 以 降低 多 维 数据 集 及 其 维度 ,使 人 们 能 将 注意 力 集中 在 较 少 的 维度 上 进行 
观察 。 图 3.9 给 出 了 三 维 数据 的 切片 与 切 块 的 示意 图 。 


产品 

Al | 切 块 Al f 
| 

A2 p || 
2000 2001 2002 ”时 间 2000 2001 

De 时 间 
Al 
A2 
S1 82 


图 3.9 三 维 数据 的 切片 与 切 块 


(2) 销 取 是 改变 维 的 层次 ,变换 分 析 的 粒度 。 维 层次 实际 上 反映 了 数据 的 综合 程度 。 
层次 越 高 ,代表 数据 综合 度 越 高 ,细节 越 少 。 钻 取 包 含 向 下 钻 取 (Drill-down) 和 向 上 钻 取 
(CDril-up)/ 上 卷 (Roll-up) 操 作 , 钻 取 的 深度 与 维 所 划分 的 层次 相对 应 。Dril-up 是 在 某 一 


. 65 。 


维 上 将 低层 次 的 细节 数据 概括 到 高 层次 的 汇总 数据 ,或 者 减少 维 数 ;而 Drill-down 则 相反 ， 
它 从 汇总 数据 深入 到 细节 数据 进行 观察 或 增加 新 维 ( 见 图 3. 10) 。 


销售 额 操作 销售 额 
2002 向 下 钻 取 一 季度 | 二 季度 | 三 季度 | 四 季度 
(Drill-down) 
中 20000 | 一 ,| 中 国 5000 | 6000 | 4000 5000 
美国 10 000 Ma 美国 2000 | 3000 | 3300 1700 
rill-ul 
日 本 24000 |= P 日 本 4000 | 7000 | 6000 7000 


13.10 OLAP 的 钻 取 操作 


(3) 旋转 是 变换 维 的 方向 , 即 在 表格 中 重新 安排 维 的 放置 (例如 行列 互 换 )。 通 过 旋转 
可 以 得 到 不 同 视角 的 数据 。 


3.3.2 多 维 数 据 分 析 的 工具 及 特点 


Ls 


Cognos 公司 的 PowerPlay 

商务 绩效 评估 (Business Performance Measurement, BPM) 提 供 全 面 的 报告 和 分 析 
环境 ; 

向 决策 者 提供 企业 运行 效率 的 各 种 关键 数据 ,进行 各 种 各 样 的 分 析 ; 

只 用 鼠标 点 击 .拖拉 就 可 以 浏览 多 维 数据 

自动 利用 Web 发 布 得 到 的 分 析 报 告 ; 

支持 多 种 OLAP Server: Microsoft OLAP Services, Hyperion Essbase, SAP BW, 
IBM OLAP for DB2; 完 备 的 授权 和 安全 体系 。 


. Business Objects 公司 的 Business Objects(B. O. ) 


易 用 的 BY 工具 ,人 允许 用 户 存 取 、 分 析 和 共享 数据 ; 
可 应 用 多 种 数据 源 , 如 RDB、ERP.OLAP、Excel 等 ; 
可 应 用 VBA 和 开放 式 对 象 模型 来 进行 开发 定制 。 


. Microsoft 公司 的 SQL Server OLAP Service 


可 以 使 用 任何 关系 数据 库 或 平面 文件 作为 数据 源 , 其 中 的 PivotTable Service 提供 
了 客户 端的 数据 缓存 和 计算 能 力 ; 

实现 Client/Server 数据 管理 ,提高 响应 速度 ,降低 网 络 流量 ; 

通过 OLE DB for OLAP ,允许 不 同 的 客户 端 访问 。 


. MicroStrategy 公司 的 MicroStrategy7 


新 一 代 的 智能 平台 (Intelligence Platform) ,面向 电子 商务 应 用 e-business 和 电子 客 
户 关系 管理 (electronic Customer Relationship Management.eCRM); 

具有 强大 的 分 析 能 力 ; 

以 Web 为 中 心 的 界面 ; 

支持 上 百 万 的 用 户 和 TB 的 数据 ;快速 开发 能 力 , 可 直接 利用 已 有 的 数据 模式 。 
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5. Oracle DW 公司 的 Express Serve Oracle 

支持 GB~TB 数量 级 ; 

采用 类 似 数组 的 结构 ,避免 了 连接 操作 ,提高 分 析 性 ,能 提供 一 组 存储 过 程 语言 来 支 
持 对 数据 的 抽取 ;用 户 可 通过 Web 和 电子 表格 使 用 ;灵活 的 数据 组 织 方式 ,数据 可 
以 存放 在 Express Server 内 ,也 可 直接 在 RDB 上 使 用 ;有 内 建 的 分 析 函 数 和 4GL 用 
户 自己 定制 查询 。 

6. IBM 公司 的 DB2 OLAP Server 

强大 的 多 维 分 析 工 具 , 把 Hyperion Essbase 的 OLAP 引擎 和 DB2 的 关系 数据 库 集 
成 在 一 起 ; 

与 Essbase API 完全 兼容 ; 

。 数据 用 星 型 模型 存放 在 关系 数据 库 DB2 中 。 


7. Essbase 公司 的 Hyperion Essbase 

© 以 服务 器 为 中 心 的 分 布 式 体系 结构 ; 

。 有 超过 100 个 的 应 用 程序 ; 

。 有 300 多 个 用 Essbase 作为 平台 的 开发 商 ; 
。 具 有 几 百 个 计算 公式 ,支持 多 种 计算 ; 

。 用 户 可 以 自己 构建 复杂 的 查询 ; 

快速 的 响应 时 间 ,支持 多 用 户 同时 读 写 ; 

。 有 30 多 个 前 端 工具 可 供 选择 ; 
支持 多 种 财务 标准 ; 

能 与 ERP 或 其 他 数据 源 集成 。 


8. Informix 公司 的 Informix Metacube 

。 采用 meta cube 技术 ,通过 OLE 和 ODBC 对 外 开放 ; 

采用 中 间 表 技术 实现 多 维 分 析 引 擎 ,提高 响应 时 间 和 分 析 能 力 ; 
开放 的 体系 结构 可 以 方便 地 与 其 他 数据 库 及 前 台 工 具 进 行 集成 。 


9. Sybase 公司 的 Power dimension 

数据 垂直 分 割 ( 按 ”* 列 ?存储 ); 

。 采用 了 突破 性 的 数据 存 取 方 法 -bit-wise 索引 技术 ; 
在 数据 压缩 和 并 行 处 理 方面 有 独到 之 处 ; 

。 提供 有 效 的 预 连接 (Pro-Jion) 技 术 。 


10. Brio. Enterprise 公司 的 Brio Enterprise 
。 强大 的 易 用 的 BI 工具 ,提供 查询 ,OLAP 分 析 和 报告 的 能 力 ; 
。 支持 多 种 语言 ,包括 中 文 ; 
。 Brio. Report 是 强大 的 企业 级 报告 工具 。 
T 


3.4 从 联机 分 析 处 理 到 联机 分 析 挖 掘 


联机 分 析 挖 掘 (On-Line Analysis Mining,OLAM) 是 联机 分 析 处 理 技术 与 数据 挖掘 技 
术 在 数据 库 或 数据 仓库 应 用 中 的 结合 ,是 联系 分 析 处 理 技术 的 新 发 展 , 也 是 近年 来 数据 库 领 
域 的 研究 重点 和 热点 。 


3.4.1 联机 分 析 挖 掘 形成 原 


OLAP 与 DM 虽 同 为 数据 库 或 数据 仓库 分 析 工 具 , 但 两 者 的 侧重 点 不 同 。 同 时 , 随 着 
OLAP 与 DM 技术 的 应 用 和 发 展 , 数 据 库 领域 在 OLAP 基础 上 对 深层 次 分 析 的 需求 与 人 工 
智能 领域 的 数据 挖掘 技术 的 融合 最 终 促 成 了 联机 分 析 挖 掘 技术 。 

一 方面 ,分 析 工 具 OLAP 功能 虽 强 大 ,能 为 客户 端 应 用 程序 提供 完善 的 查询 和 分 析 , 但 
它 也 存在 不 足 , 由 于 OLAP 是 一 种 验证 性 分 析 工 具 , 是 由 用 户 驱 动 的 ,这 很 大 程度 上 受到 用 
户 的 假设 能 力 的 限制 。OLAP 分 析 事 先 需 要 对 用 户 的 需求 有 全 面 而 深入 的 了 解 , 然 而 用 户 
的 需求 是 不 确定 的 ,难以 把 握 , 所 以 OLAP 分 析 常 常 采 用 试 凑 法 搜索 数据 仓库 , 耗 时 多 而 且 
易 产生 一 些 无 用 的 结果 。 另 一 方面 ,数据 挖掘 可 以 使 用 复杂 算法 来 分 析 数 据 和 创建 模型 来 
表示 有 关 数 据 的 信息 ,用 户 不 必 提 出 确切 的 要 求 , 系 统 就 能 够 根据 数据 本 身 的 规律 性 ,自动 
挖掘 数据 潜在 的 模式 ,或 通过 联想 建立 新 的 业务 模型 以 辅助 决策 。 但 数据 挖掘 存在 一 些 缺 
点 : 如 DM 由 数据 驱动 ,用 户 需要 事先 提出 挖掘 的 任务 ,但 很 多 时 候 是 不 能 预先 知道 要 挖掘 
什么 样 的 知识 的 。 若 用 户 仅仅 提出 挖掘 任务 ,DM 工具 就 遍历 整个 数据 库 , 将 导致 搜索 空间 太 
大 。 即 使 挖掘 出 了 潜在 有 价值 的 信息 ,但 它 究竟 用 来 做 什么 分 析 用 ,用 户 也 可 能 不 太 清楚 。 

可 将 OLAP 与 DM 结合 使 用 。OLAP 的 分 析 结 果 可 以 补充 到 系统 知识 库 中 ,为 数据 挖 
掘 提供 分 析 依 据 ;数据 挖掘 发 现 的 知识 可 以 指导 OLAP 的 分 析 , 拓 展 OLAP 分 析 的 深度 ,以 
便 发 现 OLAP 所 不 能 发 现 的 更 为 复杂 、 细 致 的 信息 。 不 可 否认 ,两 者 各 有 长 处 ,也 各 有 不 
足 。OLAP 缺乏 灵活 性 、 准 确 性 ,而 数据 挖掘 实施 代价 高 昂 、 实 现 困难 。 针 对 两 者 的 优 缺 
点 ,人 们 提出 了 OLAM。OLAM 综合 了 OLAP 和 数据 挖掘 的 功能 , 兼 有 OLAP 多 维 分 析 
的 在 线性 、 灵 活性 和 数据 挖掘 对 数据 处 理 的 深入 性 。 借 助 OLAM, 用 户 既 可 在 多 维 数据 库 
的 不 同 部 位 和 不 同 抽象 级 别 交互 地 执行 挖掘 ,又 可 以 灵活 选择 所 需要 的 数据 挖掘 功能 ,并 动 
态 交 换 数 据 挖掘 任务 。 


3.4.2 联机 分 析 挖 掘 概念 及 特征 


1, 联机 分 析 挖 掘 的 概念 

联机 分 析 挖 掘 将 联机 分 析 处 理 与 数据 挖掘 以 及 在 多 维 数 据 库 中 发 现 的 知识 集成 在 一 
起 ,提供 在 不 同 的 数据 子 集 和 不 同 的 抽象 层 上 进行 数据 挖掘 的 工具 。 联 机 分 析 挖 掘 为 用 户 
选择 所 期 望 的 数据 挖掘 功能 、 动 态 修改 挖掘 任务 提供 了 灵活 性 。 在 数据 仓库 的 基础 上 提供 
更 有 效 的 决策 支持 ,鉴于 OLAP 与 DM 技术 在 决策 分 析 中 的 这 种 互补 性 ,促成 了 OLAM 技 
术 的 形成 ,其 中 所 包含 的 关键 技术 可 用 如 下 公式 表达 : 联机 分 析 挖 掘 COLAM) 王 数据 仓库 
(DW) 十 联机 分 析 处 理 (OLAP) 十 数据 挖掘 (DM)。 
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但 OLAM 不 是 这 三 种 技术 的 单纯 至 加 ,而 是 多 种 技术 的 无 颖 集成 ,这 种 集成 将 带 来 
OLAM 技术 与 其 构件 技术 在 基本 概念 .原理 .技术 方法、 机制 .结构 、 使 用 等 方面 本 质 上 的 
不 同 。OLAM 建立 在 多 维 数据 视图 的 基础 之 上 ,基于 超 立 方 体 的 挖掘 算法 是 其 核心 所 在 。 
超 立 方 体 计算 与 传统 挖掘 算法 的 结合 使 得 数据 控 气 有 了 极 大 的 灵活 性 和 交互 性 。 这 里 所 说 
的 立方 体 计算 方法 一 般 指 切片 、. 切 块 、. 钻 取 、 旋 转 等 操作 ;而 挖掘 算法 则 是 指 关 联 、 分 类 、 聚 类 
等 基于 关系 型 或 事务 型 的 挖掘 算法 。 

根据 立方 体 计算 和 数据 挖掘 所 进行 的 次 序 不 同 组 合 可 以 有 以 下 一 些 模式 : 

A) 先进 行 立 方 体 计算 、 后 进行 数据 挖掘 。 在 进行 数据 挖掘 以 前 , 先 对 多 维 数据 进行 一 
定 的 立方 体 计算 ,以 选择 合适 的 数据 范围 和 恰当 的 抽象 级 别 。 

(2) 先 对 多 维 数据 作 数 据 挖掘 ,然后 再 利用 立方 体 计算 算法 对 挖掘 出 来 的 结果 作 进 一 
步 的 深入 分 析 。 

G) 立方 体 计算 与 数据 挖掘 同时 进行 。 在 挖掘 的 过 程 中 ,可 以 根据 需要 对 数据 视图 作 
相应 的 多 维 操作 。 这 也 意味 着 同一 个 挖掘 算法 可 以 应 用 于 多 维 数据 视图 的 不 同 部 分 。 

(4) 回溯 操作 。OLAM 的 挖掘 过 程 是 对 多 维 数据 视图 的 一 个 不 断 深 入 的 过 程 。 
OLAM 的 标签 的 回溯 特性 ,允许 用 户 回溯 一 步 或 几 步 ,或 回溯 至 标志 处 ,然后 沿 着 另外 的 途 
径 进行 挖掘 ,这 样 用 户 在 挖掘 分 析 中 可 以 交互 式 地 进行 立方 体 计算 和 数据 挖掘 。 

联机 分 析 处 理 概 念 正 式 提出 是 在 1997 年 ,由 Jiawei Han 教授 等 人 在 数据 立方 体 的 基 
础 上 提出 多 维 数据 挖掘 的 概念 。 这 实际 上 是 在 OLAP 系统 的 基础 上 ,把 数据 分 析 算 法 、 数 
据 挖 掘 算法 引进 来 ,解决 多 维 数据 环境 的 数据 挖掘 问题 。 因 此 这 时 的 OLAM 实际 上 还 是 
OLAP 和 DM 的 松散 结合 。 之 后 ,国内 外 研发 人 员 在 这 方面 展开 了 积极 的 工作 ,试图 将 
OLAP 和 DM 技术 有 机 结合 起 来 形成 真正 的 OLAM 技术 和 产品 。 其 分 析 和 挖掘 的 数据 基 
础 也 扩大 到 包括 多 维 数据 模型 和 关系 数据 模型 等 在 内 的 多 种 模型 的 异 构 环 境 ,研究 重点 是 
如 何 实现 OLAP 和 DM 技术 紧密 集成 , 即 针对 在 异 构 大 数据 量 的 环境 中 快速 响应 用 户 的 数 
据 分 析 和 数据 挖掘 请 求 的 问题 进行 深入 研究 。 

2. 联机 数据 挖掘 的 功能 特征 

OLAM 融合 了 三 种 技术 , 兼 有 OLAP 和 DM 的 优点 ,在 DW 上 的 数据 挖掘 和 分 析 更 具 
有 灵活 性 和 交互 性 。 其 功能 特征 包括 : 

(1) 相对 OLAP 和 DW 技术 ,OLAM 具有 和 较 高 的 执行 效率 和 较 快 的 响应 速度 。 

(2) OLAM 能 对 任何 它 想 要 的 数据 进行 挖 据 。OLAM 建立 在 OLAP 基础 上 ,因此 能 
方便 地 对 任何 一 部 分 数据 或 不 同 抽象 级 别 的 数据 进行 挖掘 ,甚至 还 可 以 直接 访问 存储 在 底 
层 数 据 库 里 的 数据 。 

(3) 在 OLAM 中 ,用 户 可 以 动态 选择 或 添加 挖掘 算法 ,并 可 以 动态 切换 挖掘 任务 。 

(4) OLAM 中 挖掘 任务 具有 多 样 性 ,算法 具有 复杂 性 ,因此 应 具有 标签 和 回溯 的 功能 。 
标签 功能 即 标记 用 户 的 操作 状态 功能 ,回溯 指 的 是 退回 到 上 次 操作 状态 。OLAM 这 种 功能 
可 以 避免 用 户 因 算法 的 复杂 性 而 在 超 立 方 体 中 “迷失 方向 ”。 

G) OLAM 具有 灵活 的 可 视 化 工具 。 可 视 化 工具 以 丰富 的 图 文 有 效 地 显示 分 析 和 挖 
掘 结果 给 用 户 ,从 而 实现 交互 式 处 理 。 

(6) 良好 的 扩展 性 。 这 是 指 OLAM 应 该 高 度 模块 化 ,能 与 其 他 多 个 子 系统 集成 。 

. 69 。 


(7) 友好 的 人 际 交互 能 力 。OLAM 的 决策 分 析 过 程 是 要 在 人 的 指导 下 进行 ,人 作为 系 
统 的 组 成 部 分 和 系统 应 用 密 不 可 分 。 人 与 计算 机 分 别 承 担 各 自 最 擅长 的 工作 ,实现 资源 的 
合理 配置 。 


3.5 小 结 


本 章 主 要 阐述 了 多 维 数据 分 析 技 术 与 方法 ,研究 的 主要 内 容 有 联机 分 析 处 理 技术 的 定 
义 , 特 性 .评价 准则 及 逻辑 概念 ,多 维 数据 的 概念 模型 .逻辑 模型 物理 模型 ,OLAP 的 多 维 
数据 分 析 基 本 操作 ,OLAP 流行 产品 介绍 以 及 联机 分 析 挖 掘 OLAM 的 形成 原因 、 功 能 特 
征 、 分 析 操 作 与 体系 结构 。 


. 说 明 OLAP 技术 的 定义 、 特 点 和 评价 准则 。 

. 解释 OLAP 多 维 数据 结构 的 三 种 类 型 和 比较 。 
. 列举 流行 的 OLAP 工具 和 对 应 的 特点 。 

.阐述 联机 分 析 挖 掘 产生 的 原因 、 概 念 和 特征 。 


Fe ww N -e 
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党 4 章 ”预测 里 型 研究 与 应 半 


本 章 对 预测 模型 展开 深入 的 探讨 。 指 出 预测 方法 的 分 类 和 建 模 的 一 般 步骤 。 重 点 阐述 
了 四 类 典型 的 预测 方法 的 数学 模型 和 实例 应 用 ,包括 一 元 线性 回归 、 多 元 线性 回归 , 非 线性 
回归 预测 模型 , 玻 尔 . 歼 珀 兹 、 林 德 诺 三 种 趋势 外 推 预 测 模型 ,移动 平均 、 指 数 平滑 和 季节 指 
数 三 类 时 间 序 列 预 测 模型 ,马尔 可 夫 预 测 模型 。 


4.1 预测 模型 的 基础 理论 


4.1.1 预测 方法 的 分 类 


按 预 测 目 标 范围 的 不 同 , 可 分 为 宏观 预测 和 微观 预测 ,宏观 经 济 预 测 是 指 对 整个 国民 经 
济 或 一 个 地 区 一 个 部 门 的 经 济 发 展 前 景 的 预测 。 而 微观 经 济 预 测 是 以 单个 经 济 单位 的 经 
济 活动 前 景 作为 考察 的 对 象 ; 按 预 测 期 限 长 短 不 同 ,可 分 为 长 期 预测 .中 期 预测 和 短期 预测 ; 
按 预 测 结果 的 性 质 不 同 ,可 分 为 定性 预测 与 定量 预测 。 


1. 定性 预测 

主要 是 根据 事物 的 性 质 和 特点 以 及 过 去 和 现在 的 有 关 数 据 , 对 事物 做 非 数量 化 的 分 析 ， 
然后 根据 这 种 分 析 对 事物 的 发 展 趋势 做 出 判断 和 预测 。 定 性 预测 在 很 大 程度 上 取决 于 经 验 
和 专家 的 努力 ,依靠 人 们 的 主观 判断 来 取得 预测 结果 。 其 特点 为 简单 易 行 .花费 时 间 少 、 
应 用 历史 较 久 。 当 缺乏 统计 数据 ,不 能 构成 数学 模型 或 环境 变化 很 大 ,历史 统计 数据 的 规律 
无 法 反映 事物 变化 规律 时 一 般 用 定性 预测 。 主 要 有 以 下 几 种 方法 : 用 户 意见 法 (对 象 调查 
法 )、 员 工 意 见 法 ,个 人 判断 ,专家 会 议 , 特 尔 非法 ,主观 概率 法 ,类推 法 ,目标 分 解法 等 。 这 些 
方法 在 一 定 程度 上 存在 片面 性 ,准确 度 不 太 高 的 缺点 ,可 以 作为 定性 预测 的 辅助 方法 。 

2, 定量 预测 

定量 预测 主要 利用 历史 统计 数据 并 通过 一 定 的 数学 方法 建立 模型 ,以 模型 为 主 对 事物 
的 未 来 做 出 判断 和 预测 的 数量 化 分 析 , 也 称 客观 预测 。 本 书 所 采用 的 定量 预测 模型 体系 如 
图 4.1 所 示 。 

本 音 后 几 节 将 详细 介绍 定量 预测 方法 中 的 回归 分 析 、 时 间 序列 分 析 、 趋 势 外 推 法 ,马尔 
可 夫 预 测 等 方法 。 


4.1.2 预测 方法 的 一 般 步骤 


(1) 预测 目标 分 析 和 确定 预测 期 限 : 确定 预测 目标 和 预测 期 限 是 进行 预测 工作 的 
前 提 。 
(2) 进行 调研 ,收集 资料 : 预测 以 一 定 的 资料 和 信息 为 基础 ,以 预测 目标 为 中 心 收集 充 
分 .详尽 .可 靠 的 资料 。 同 时 要 去 伪 存 真 ,去 掉 不 真实 和 与 预测 对 象 关 系 不 密切 的 资料 。 
a 


定量 预测 模型 体系 ”) 一 


I 
可 归 预 测 模型 | ”| 趋势 外 推 预测 模型 时 间 序列 预测 模型 | | 马尔 可 夫 | | 灰色 序列 | | ”其 他 
| 预测 模型 | | 预测 模型 | | 预测 模型 
| 
一 元 || 多 元 || 非 | [aes] [seme] “| 移动 | ”| 指数 | ”| 季节 
线性 || 线 性 || 线 性 | “| 曲线 || 兹 预 || 诺 预 | | 平均 | “| 平滑 | “| 指数 
可 归 || 回 归 || 回 归 | | 增长 || 测 模 || 测 模 | “| 预测 | “| 预测 | “| 预测 
模型 || 模 型 || 模 型 | | 模型 | 型 || 型 | ”| 模型 | “| 模型 | | 模型 不 考 | ase 
a pa E3 预测 模型 的 
等 函 || 双 曲 | 对 数 | 指数 || 趟 曲 一 次 || 三 次 || 一 次 | 三 次 || 三 次 | | zag] | 的 季 验证 与 评价 
数 形 | 线形 | 函数 | 函数 | 我 形 移动 | 移动 | | 指数 | 指数 | 指数 | | 指数 | | 节 指 
at |] st | 形式 | 形式 | 趟 平均 || 平均 | | 平滑 | 平滑 | 平滑 | | 法 | | 数 法 
I I I 


图 4.1 定量 预测 模型 体系 结构 


(3) 选择 合适 的 预测 方法 : 分 别 研究 当前 预测 理论 领域 的 各 种 预测 模型 和 预测 方法 。 
预测 方法 的 选取 应 服从 预测 的 目的 和 资料 ` 信 息 的 条 件 。 同 时 使 用 多 种 预测 方法 独立 地 进 
行 预测 ,并 对 各 种 预测 值 分 别 进行 合理 性 分 析 与 判断 。 

(4) 考虑 模型 运行 平台 : 依据 预测 理论 和 预测 方法 ,选择 合适 的 数据 库 和 编程 语言 实 
现 预测 模型 系统 。 

(5) 对 预测 的 结果 进行 分 析 和 评估 : 考核 预测 结果 是 否 满足 预测 目标 的 要 求 ,对 各 种 
预测 模型 进行 相关 检验 ,比较 预测 精确 度 。 根 据 不 同 模 型 的 拟 合 效果 和 精度 ,选取 精度 较 高 
和 拟 合 效果 好 的 模型 。 

(6) 模型 的 更 新 : 应 该 根据 最 新 的 管理 ` 经 济 动态 和 新 到 来 的 信息 数据 ,重新 调整 原来 
的 预测 模型 以 提高 预测 的 准确 性 。 


4.2 回归 分 析 预 测 模型 


4.2.1 一 元 线性 回归 预测 模型 


一 元 线性 回归 分 析 是 处 理 两 个 变量 z( 自 变量 ) 和 y( 因 变量 ) 之 间 关 系 的 最 简单 模型 ， 
研究 的 是 这 两 个 变量 之 间 的 线性 相关 关系 。 通 过 该 模型 的 讨论 ,不仅 可 以 掌握 有 关 一 元 线 
性 回归 的 理论 知识 ,而 且 可 以 从 中 了 解 回归 分 析 方 法 的 数学 模型 .基本 思想 .方法 及 应 用 。 


4.2.1.1 数学 模型 


1. 一 元 回归 公式 
以 影响 预测 的 各 因素 作为 自 变 量 或 解释 变量 x 和 因 变 量 或 被 解释 变量 y 有 如 下 关系 : 
y=atbritu (i= 1,2,.,n) (4.1) 
RA. 1) 称 为 一 元 线性 回归 模型 (One Variable Linear Regression Model) , HP u 是 一 
个 随机 变量 称 为 随机 项 ;a、b 是 两 个 常数 , 称 为 回归 系数 (参数 );i 表示 变量 的 第 i 个 观察 
值 ,共有 组 样本 观察 值 。 
a 72 a 


2. 建立 模型 与 相关 检验 
1) 参数 的 最 小 二 乘 估计 


相应 于 y: 的 估计 值 jı =à + br; ,3 与 yi 之 差 称 为 估计 误差 或 残 差 ,以 & 表示 1b; = Yi — 

加。 显然 ,误差 4 的 大 小 是 衡量 估计 量 和 ,2 好 坏 的 重要 标志 ,以 误差 平方 和 最 小 作为 衡量 总 
误差 最 小 的 准则 ,并 依据 这 一 准则 对 参数 ab 作出 估计 。 令 

a= Yo. 5 = YA = Do bx ;)? (4, 2) 

使 Q 达到 最 小 以 估计 出 aa ,0 的 方法 称 为 最 小 二 乘法 (Method of Least-Squares)。 由 多 


元 微分 学 可 知 ,使 Q 达到 最 小 的 参数 的 4,6 的 最 小 二 乘 估 计量 (Least-Squares Estimator of 
Regression Coefficient) 必 须 满足 : 


LE e ee 


da =1 
a G = 1,2, n) (4.3) 
QD y — â — Âr) = 0 
db j= 
解 上 述 方程 组 得 
Driyi — IO) yi X xyi nzy 
p= È i O, alyd (4, 4) 


ES la (2; — T) shy (yi — 9)? ,Ly (a — T) (一 7)， 则 式 (4.4) 可 以 
i=1 i=1 i=1 
写成 
2 一 了 一 好 
2) 相关 性 检验 


一 般 情况 下 ,在 一 元 线性 回归 时 ,用 相关 性 检验 较 好 ,相关 系数 R(Sample Correlation 
Coefficient) 是 描述 变量 x 与 y 之 间 线 性 关系 密切 程度 的 一 个 数量 指标 。 


R= 一 -一 所 2 = CISR< D (4.5) 
JÈ- — nx > — ny? Vial 

查 相 关系 数 临 界 值 表 , 若 R>R,(n— 2). MERKAR Sh m, o AE A 
测 ; 反 之 ,没有 通过 检验 ,该 一 元 回归 方程 不 可 以 作为 预测 模型 。 
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3. 应 用 回归 方程 进行 预测 

1) 预测 值 的 点 估计 

当 方 程 通过 检验 后 ,由 已 经 求 出 的 回归 方程 和 给 定 的 某 一 个 解释 变量 zo, 可 以 求 出 此 
条 件 下 的 点 预测 值 ,输入 ze 的 值 , 则 预测 值 为 j= 二 & 十 bx。。 

2) 区 间 估 计 

为 估计 预测 风险 和 给 出 置信 水 平 (CConfidence Level) ,应 继续 做 区 间 估 计 (Interval 
Estimation) ,也 就 是 在 一 定 的 显著 性 水 平 下 , 求 出 置信 区 间 (CConfidence Region) , 即 求 出 一 
个 正 实数 $, 使 得 实测 值 yo A a 的 概率 落 在 区 间 (y 一 9,y +O) PY» HE P Oo — 0+ 0 +O) = 
a。 由 于 预测 值 和 实际 值 都 服从 正 态 分 布 ,从 而 预测 误差 yo 一 也 服从 正 态 分 布 ,6 二 
1g (n—2) Xa [1+ b+ EE g= JL =OXTy MTE Rit 8 后 将 得 出 结论 : 在 a 


n ee 


的 概率 下 ,预测 范围 为 (yo 一 9,3o +8) 。 
4.2.1.2 一 元 线性 回归 模型 实例 


K 4. 1 给 出 的 是 1991—2002 年 某 城 市 的 水 路 货运 量 , 下 面 将 根据 此 表 数 据 建立 一 元 线 
性 回归 模型 并 对 2002 年 以 后 的 水 路 货运 量 进行 预测 。 


表 4.1 1991 一 2002 年 某 城市 的 水 路 货运 量 


序号 x 年 份 水 路 货运 量 y; 序号 x; 年 份 水 路 货运 量 y 
1 1991 1659 1997 2364 
2 1992 1989 1998 2354 
3 1993 2195 1999 2418 
4 1994 2255 2000 2534 
5 1995 2329 11 2001 2568 
6 1996 2375 12 2002 2835 


1. 计算 ,了 


= 511659 +1989 + 2195 + 2255 + 2329 + 2375 + 2364 


+ 2354 + 2418 + 2534 + 2568 + 2835) 
= 2323 
+ 74 é 


表 4.2 1991 一 2002 年 某 城 市 水 路 货运 量 一 元 线性 回归 计算 过 程 


序号 x; | 年 份 = 水 路 货运 量 y; 了 (yy) | yY 
1991 6.5 1659 2323 一 664 440 896 
2 1992 6.5 1989 2323 — 334 111 556 
3 1993 6.5 2195 2323 —128 16 384 
4 1994 6.5 2255 2323 —68 4624 
5 1995 6.5 2329 2323 6 36 
6 1996 6.5 2375 2323 52 2704 
7 1997 6.5 2364 2323 41 1681 
8 1998 6.5 2354 2323 31 961 
9 1999 6.5 2418 2323 95 9025 
10 2000 6.5 2534 2323 211 44 521 
11 2001 6.5 2568 2323 245 60 025 
12 2002 6.5 2835 2323 512 262 144 


Lie > (zi — 7) 30.254 20.25 -+12:25 +6. 25+ 2.25-+0, 25+ 0,25 
i=1 


+ 2.25 +6. 25 + 12. 25 + 20. 25 + 30. 25 = 143 


+ 961+ 9025 + 44 521 + 60 025 + 262 144 = 954 557 


ly = >) (ai — 2)(yi — 7) = (— 5.5) X (— 664) + (一 4.5) X (— 334) 
i=1 


= 3652 + 1503 + 448 + 170 —9 — 26 + 20.5 + 46.5 + 237.5 + 738.5 
+ 1102.5 + 2816 = 10 699.5 


3. 计算 系数 人 ,8 
i, — L» — 10 699.5 
A 143 


所 以 此 预测 模型 为 


3 一 2 十 入 = 1836. 657 +74. 822x 


4. 一 元 线性 回归 方程 的 相关 性 检验 
相关 系数 


pA Do y)’ = 440 896 + 111 556 + 16 384 + 4624 + 36 + 2704 + 1681 


+ (— 3.5) K (— 128) + (— 2.5) K (— 68) + (— 1.5) X 6+ (—0.5) K 52 
+0.5X 41+1.5 X 3142.5 X95+3.5 X 2114+ 4.5 X 2454+5.5 X 512 


= 74,822, â= y— bT = 2323 — 74. 822 X 6.5 = 1836. 657 


(4. 6) 


° 75 6 


= J; 10 699.5 


TPE EN 143 X 954 557 

因为 相关 系数 R=0. 9158 ,接近 十 1, 属 于 正 相 关 , 所 以 可 以 认为 x 和 > 之 间 存 在 显著 的 
线性 关系 , 式 (4. 6) 可 以 作为 预测 模型 。 

5. 预测 分 析 

根据 上 面 所 求 的 一 元 线性 预测 模型 y= 1836. 657 十 74. 822x ,如 果 要 预测 2004 年 货运 
量 的 点 估计 值 和 区 间 估 计 值 ,将 = 14 代入 式 (4.6) ,得 

Yav 一 1836. 657 十 74. 82224, = 1836. 657 +74. 822 X 14 
一 2884( 四 舍 五 人 结果 ) 
Y 2001 的 95% 的 估计 区 间 : 
o= JUy —bX1,)/n—2 = V4557—74.822 X10699.5)/(12—2) 
一 124. 0963 


= 0.9158 


(ay — TY 


lax 


= 1 (14 — 6.5)? 
= to.025 (10) X 287.645 X ,/1 + 27 T13 


d= tn- XoX 1 ++ 


= 2, 228 14 X 124. 0963 X 1. 2152 = 336 
所 以 Yro HY 95% BY THT IX E] A (2884 — 336 .2884+336) = (2548 ,3220), 
上 述 一 元 线性 回归 预测 模型 完整 过 程 的 编程 实现 界面 如 图 4.2 所 示 。 


a 一 元 线性 回归 Cie 
cee 数据 显示 区 
Peles sm4azrz 显示 F xE e 
| 1981 1659 1 
1992 1989 2 
相关 性 检验 j 1993 2195 3 
1994 2255 4 
显著 性 水 平 |0.05 ”| 。 临界 值 Re= [0.576 TE ES r 
1996 2375 6 
SHARM fo. 916 相关 性 检验 | ar ae s 
1998 2354 8 
结论 a AS Ima zup a 
2001 2568 11 
2002 2835 12 
p O 
预测 年 份 |2004 x 
a > 


E 显示 原始 数据 
一 预 出 输出 - 一 一 一 一 
预测 结果 ora 
重 置 @) 返回 主 窗口 G) 
预测 区 间 | 2548. 071, 3220. 088) 
系统 帮助 W | 退出 系统 己 ) | 


图 4.2 对 水 路 货运 量 预测 的 一 元 线性 回归 模型 


4.2.2 多 元 线性 回归 预测 模型 
对 多 元 线性 回归 模型 (Multivariate Linear Regression Model) 的 基本 假设 是 在 对 一 元 
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线性 回归 模型 的 基本 假设 基础 之 上 ,还 要 求 所 有 自 变量 彼此 线性 无 关 , 这 样 随机 抽取 n 组 


样本 观察 值 就 可 以 进行 参数 估计 。 
4.2.2.1 数学 模型 
1. 多 元 回归 公式 
yi = by +b xy Hbzxz +e bp, tu; (i=1,2,.…,n) 


2. 建立 模型 与 相关 检验 
D 参数 的 最 小 二 乘 估计 
式 (4.7) 对 应 的 样本 回归 模型 为 Yi bo | by zii + by x2; Heee- brzu Ci 1,2, 


(4.7) 


…,n)。 利 用 


最 小 二 乘法 求 参数 估计 量 bosb bose bes RHE AW Q, 则 Q = >)(y 一 (0 + 
i=l 


ER F bo 22; E Ad = Dex ) )* 要 达到 最 小 。 


由 偏 微 分 知识 可 知 : 
29 m 25 >= (bp + bx + boxy =r ee 十 和 za)) 一 0 
3b i=l 
IQ r ne _ 
SS = 25) (yi — (bp Hbity + bru + tra re = 0 
Ob, i=l 


经 整理 ,写成 矩阵 形式 ,得 到 


xB = y>(x"x)B = xT y>B = (x"x) 1 (xTy) 


1 Tu Ta Th yı bo 
i O: x sr F y ~ b 
其 中 ,x=| TP PF) Ba] | a oy x AUR HET 
1 Tin Tzn * Th Yn r 
b; 


D 多 元 线性 回归 模型 的 检验 
TSS: X) O,- D? 表示 观察 值 y 与 其 平均 值 的 总 离 差 平方 和 。 


(4, 8) 


(4.9) 


ESS: z (3 一 5)? 表示 由 回归 方程 中 xz 的 变化 而 引起 的 称 为 回归 平方 和 。 


RSS: X TSS—ESS = Siig 表示 不 能 用 回归 方程 解释 的 部 分 ,是 由 其 他 未 能 控 


制 的 随机 干扰 因素 引起 的 残 差 平方 和 。 


(1) 拟 合 优 度 检 验 。 拟 合 优 度 R (Goodness of Fit): R?=ESS/TSS(O<R?<1), WE 
优 度 是 衡量 回归 平方 和 在 总 离 差 平方 和 中 所 占 的 比重 大 小 。 比 重 越 大 线性 回归 效果 越 好 ， 
也 就 是 R? 越 接近 1, 回归 直线 与 样本 观察 值 拟 合 得 越 好 。 拟 合 优 度 也 称 为 决定 系数 或 相关 
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拟 合 优 度 的 修正 值 R= 二 1 一 (1 一 R?)- 了 ,其 中 丸 为 样本 总 数 ,m 为 自 变量 个 数 ， 


nm 1 

n 一 m 一 1 为 RSS 的 自由 度 ,n 一 1 为 TSS 的 自由 度 。 

(2) 下 检验 。 在 多 元 线性 回归 模型 中 ,所 得 回归 方程 的 显著 性 检验 (F 检验 ) 是 指 回归 
系数 总 体 的 回归 显著 性 。F 检验 的 步骤 为 

O 假设 Ho: b= 二 bz 二 … 二 bi 二 0, 备 择 假设 : Hi: b; 不 全 为 零 (j 二 1,2,…,k); 

ESS 
O 计算 构造 统计 量 一 一 ESS 一 (7 为 样本 总 数 , 为 自 变量 个 数 ); 
n—k—1 

@ 给 定 显著 性 水 平 ,确定 临界 值 F,(k,n 一 k& 一 1); 

@ 把 下 与 F (k,n 一 k 一 1) 相 比较 ,车 下 这 F,(k,n 一 k 一 1) 则 认为 回归 方程 有 显著 意义 ， 
否则 ,判定 回归 方程 预测 不 显著 。 

G) t 检 验 。 对 引入 回归 方程 的 自 变 量 逐 个 进行 显著 性 检验 的 过 程 , 称 为 回归 系数 的 显 
著 性 检验 (t-test or Student-Test) , t 检验 的 步骤 为 

O 假设 Ho: 6b;==0, 备 择 假 设 Hi: 6; 关 0(i==1,2,…,n); 

© 计算 统计 量 |T;|, 即 


| Ti |5 一 一 (4.10) 


1 3 和 2 
FBT Dy OTI VE 
© 给 定 显著 性 水 平 c ,确定 临界 值 她 (2 一 A 一 1); 
@ 1Ti| 与 始 (n 一 k 一 1) 比 较 , 也 就 是 统计 量 与 临界 值 比较 。 若 1T; | >te (mn 一 k 一 1), 则 


认为 回归 系数 六 与 零 有 显著 差异 ,必须 保留 x; 在 原 回 归 方 程 中 ;否则 ,应 去 掉 x 重新 建立 
回归 方程 。 


3. 应 用 回归 方程 进行 预测 

1) 预测 值 的 点 估计 

当 方 程 通过 检验 后 ,由 已 经 求 出 的 回归 方程 和 给 定 的 解释 变量 Xo = (Tor Toz ot Low) > 
可 以 求 出 此 条 件 下 的 点 预测 值 ,输入 Xo 的 值 , 则 预测 值 六 一 名 十 zu be 02 H + dn or o 

2) 区 间 估 计 

为 估计 预测 风险 和 给 出 置信 水 平 ,应 继续 做 区 间 估 计 , 也 就 是 在 一 定 的 显著 性 水 平 下 ， 
求 出 置信 区 间 , 即 求 出 一 个 正 实数 9, 使 得 实测 值 w 以 a 的 概率 落 在 区 间 (36 一 6, 十 9) 内 ， 
满足 PCH — 8s +d) =a, EP Sta (n—m—1) Xo X Vit+X (XX) "X", 
o= VRSS/n—m—1,。 


4.2.2.2 应 用 多 元 回归 方程 进行 客运 量 预测 的 实例 


为 了 简明 ,下 面 以 仅 含 两 个 自 变 量 ( 人 口 数 及 城市 GDP) 建 立 某 城市 水 路 客运 量 的 二 
线性 回归 预测 模型 问题 为 例 , 具 体 数 据 见 表 4. 3。 
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#4.3 1991 一 2002 年 某 城市 的 水 路 客运 量 , 人 口 数 及 城市 GDP 


序号 年 份 WAT a 城市 GDP xz 
1 1991 520 211.9 
2 1992 522. 9 244. 6 
3 1993 527.1 325.1 
4 1994 531.5 528. 1 
5 1995 534.7 645. 1 
6 1996 537. 4 733. 1 
7 1997 540. 4 829.7 
8 1998 543. 2 926. 3 
9 1999 545. 3 1003. 1 
10 2000 551.5 1110. 8 
11 2001 554.6 1235. 6 
12 2002 557. 93 1406 


具体 预测 过 程 如 下 ,其 中 在 计算 过 程 中 所 用 到 的 中 间 数 据 均 列 人 表 4. 4。 
表 4.4 1991 一 2002 年 某 城市 水 路 货运 量 预测 的 二 元 线性 回归 模型 计算 过 程 


年 份 Tii 元 Zur ESES (tu — T2) yi y (yi) 
991 | 520 538. 88 ; 766.62 | 一 554. 72 | 342 564. 625 | — 222. 625 
992 | 522.9 538. 88 一 522. 02 | 466 564.625 | —98. 625 
993 | 527.1 538. 88 — 441.52 | 492 564. 625 | 一 72.625 
994 | 531.5 538. 88 —238. 52 | 483 564.625 | —81. 625 
995 | 534.7 538. 88 —121. 52 | 530 564.625 | —34. 625 
996 | 537.4 538. 88 —33.52 | 553 564.625 | —11.625 
997 | 540.4 538. 88 63.08 | 581.5 | 564. 625 16. 875 
998 | 543.2 538. 88 159.68 | 634.8 | 564. 625 70.175 
999 | 545.3 538. 88 .42 | 1003. . 62 236.48 | 656.1 | 564. 625 91.475 
2000 | 551.5 538. 88 3 1110. : 344.18 | 664.4 | 564. 625 99.775 
2001 | 554.6 538. 88 468.98 | 688.3 | 564.625 | 123.675 
2002 | 557.93 | 538.88 639. 38 | 684.4 | 564.625 | 119.775 


1. 参数 估计 
从 表 4. 3 中 的 数据 出 发 ,在 Tis Xe All y 之 间 建 立 回归 方程 : =b +b +b, x2 ,其 中 回 
归 系 数 的 估计 仍 用 最 小 二 乘法 解 得 bo =y — b T 一 bz ,并 且 满足 下 述 方程 组 : 


+ hob, = liy 


K n (4,11) 
labi 十 020 = lay 
| i | ix n 
其 中 :了 = 一 Yiot1 = — Dus, = — >) tars 
| m=) i=} 
令 


hi = X ay Ts ln = >) Gy Tas l = ln = D) ry — Cy T), 
j=l j=l j= 


j=l 


hy = Dy (ey T) ly; — y), ley = Dy (ry T= y) by = 246 — 9 


ERU 11) 所 示 的 方程 组 ,得 到 六 一 人 elzz 一 ol p, =l hla, 
lu Loo hizla Ly Loo liz la 


将 表 4.4 中 的 数据 代入 式 (4. 11) ,得 


ly = >) (y; — y)? = 125 733.4, ln = >) Gry — zr)? 一 1656.185 
j=l j=l 


la = >) (aaj — zz)? = 1680550, he = In = >) (aj — Fy) (aaj — Fa) = 52 533. 95 
pa j=l 


hy = 》 (zy 一 五 )(y — y) = 13800.16, by = 》 (ay — Tr) (yj; — F) = 433 936. 1 
j=1 j= 


A liylzz — layli2 _ 13 800. 16 X 1 680 550 — 433 936. 1 X 52 533.95 _ 


ĝ, = Lele — hyhi _ 13 800.16 X 1 680 550 — 433 936. 1 X 52 533.95 _ 16. 
= Tala liza 1656. 185 X 1 680 550 — 52 533. 95? peer 

j, — laln— hla _ 433 936. 1 X 1656. 185 — 13 800. 16 X 52 533.95 _ 0 268 
2 Liles — hela 1656. 185 X 1 680 550 — 52 533. 95° i 


bo = y — bızı — bz = 564. 625 — 16. 839 X 538. 88 + 0. 268 X 766. 62 =— 8304. 12 
因此 ,所 确定 的 二 元 回归 方程 为 
y =— 8304.12 + 16. 8392, — 0. 2682, 


2. 回归 方程 的 显著 性 检验 

回归 方程 的 显著 性 检验 计算 过 程 所 需 数据 均 列 人 表 4.5 中 。 

1) 拟 合 优 度 检 验 

将 表 4.5 中 的 数据 代入 模型 检验 参数 中 ,得 

拟 合 优 度 R =ESS/TSS=116 009. 766/125 733. 422 一 0. 9226; 


拟 合 优 度 修正 值 RK 一 1 一 (1 Re =0. 9054, 
2) 下 检验 
ESS 
2 116 009. 766/2 
= = = ;给 定 平 a=0. 05, ,12 一 2 一 1) 王 
F RSS 9723, 656/9 53. 688; 给 定 显 著 性 水 平 a=0. 05, F,(2,12—2—1) 
12—2—1 


4.256, 下 > 已 (2 一 一 1) 则 回归 方程 有 显著 意义 。 
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表 4.5 1991 一 2002 年 某 城市 水 路 货运 量 二 元 线性 回归 模型 检验 计算 过 程 


年 份 Tii Ta (xi 一 7) | G) | Cyi—3) 
1991 | 520 211.9 一 222. 625 | — 169. 254 | 一 53. 371 
1992 | 522.9 244.6 —98. 625 | — 129.185 | 30.560 
1993 | 527.1 325.1 —72. 625 | —80. 035 7. 410 
1994 | 531.5 528.1 一 81.625 | —60. 347 | —21. 278 
1995 | 534.7 645.1 一 34.625 | —37. 819 3. 194 
1996 | 537.4 733.1 一 11.625 | —15. 937 4. 312 
1997 | 540.4 829.7 16. 875 8. 691 8. 184 
1998 | 543.2 926.3 70. 175 29.951 | 40. 224 
1999 | 545.3 1003. 1 91.475 44.731 | 46.744 
2000 | 551.5 1110.8 99.775 | 120.269 | 一 20. 494 
2001 | 554.6 1235.6 .649 | 688. : 123,675 | 139.024 | 一 15. 349 
2002 | 557.93 | 1406 4. 05: 684.4 | 564.625 | 119.775 | 149.430 | 一 29. 655 


3) t 检验 
给 定 显著 性 水 平 a=0. 05 ,临界 值 te (n—k—1)=2. 262; 


计算 估计 标准 误差 ;,， 
/上 > _ ee 一 
= 12=—=2=—1 = 32, 869 


由 公式 IT: |= lt a oe (n—k—1) FF H. 


1 : — 4 )2(,T 7) 
areas Phe Vi)" Ca TN 


IT: [>t (n—-k-1) UHRA b Mb, 与 零 有 显著 差异 ,保留 zt 和 x 在 原 回归 方程 中 。 


3. 预测 分 析 
WA y= — 8304. 12 十 16. 839zi — 0. 268zs ,预测 
2004 年 的 货运 量 ,将 r = 560,22. = 1546 代入 上 式 , 分 别 得 到 点 估计 值 和 区 间 估 计 值 。 
yaoo 一 一 8304. 12 十 16. 839 X560—0. 268 X 1546=711. 294 
yzo04 的 95% 的 估计 区 间 为 (711. 294 一 110. 198,711. 294 十 110. 198) 一 (601. 096,821. 492) 
上 述 多 元 回归 预测 模型 完整 过 程 的 编程 实现 界面 如 图 4. 3 所 示 。 


4.2.3 非 线性 回归 预测 模型 


1. 数学 模型 
在 许多 实际 问题 中 ,不 少 经 济 变量 之 间 的 关系 为 非 线性 的 ,可 以 通过 变量 代 换 把 本 来 应 
. 8] 。 


= 多 元 回归 分 析 EJ 
-回归 方程 


|y= -8304. 087+16. 839*X1+-0. 268*X2 显示 | 
统计 检验 See 
选择 解释 变量 
-预测 输入 v [=} x we 
eA EBON vies = | 


Eza m 3 NER 02) [date water anolpeople mledp | 

[| 1991 342 520 211.9 

| 1992 466 522.9 244.6 

| 1993 492 S521.1 325.1 

| 1994 483 531.5 528.1 

E 1995 530 534.7 645.1 

makt [o z] | 19% 553 537.4 733.1 

| 1997 581.5 540.4 829.7 

| 1998 634.8 543.2 926.3 

预测 输出 - 1999 656.1 545.3 1003.1 
| 2000 664.4 551.5 1110.8 
FRM frit. 294 | 2001 688.3 554.6 1235.6 
2002 684.4 557.93 1406 


预 M 区 间 区 096, 821. 492) 


EEQ) FH | ”返回 主 窗口 @) | 退出 系统 @@) ‘ z 


图 4.3 水 路 客运 量 多 元 回归 预测 模型 (解释 变量 为 某 市 人 口 数 与 某 市 GDP) 


该 用 非 线性 回归 处 理 的 问题 近似 转化 为 线性 回归 问题 ,再 进行 分 析 预 测 。 表 4. 6 中 列举 的 
是 五 种 常见 的 非 线性 模型 及 线性 变换 的 方式 ,这 些 非 线性 模型 都 可 转化 为 一 元 或 多 元 线性 
模型 ,利用 前 面 介绍 过 的 一 元 和 多 元 线性 回归 模型 的 最 小 二 乘法 求 出 参数 估计 、 模 型 的 拟 合 
优 度 和 显著 性 检验 及 评价 预测 模型 的 预测 精度 等 。 

表 4.6 五 种 常见 的 非 线 性 模型 及 线性 变换 的 方式 


y =lg(y) 
宕 函数 模型 yy 一 az zx =lg(zx) y =a’ +bx' 
a’=lg(a) 
y=1/y , / 
双 曲 线 模型 1/y=atb(1/x) /1/ y 一 4 十 pr 
n= 这 
对 数 函 数 模 型 y 一 4 十 blg(Cz) 过 一 lg(z) y=a 十 bx 
区 y =ln(y) k i 
指数 函数 模型 yae (inla) y =a 十 pz 
i a 
=b +b, 21 Horr: + 
多 项 式 曲线 模型 | y=b Hirth? tether | Sra aaa | ; i is 
Dy Tk 


2. 应 用 非 线 性 模型 进行 客运 量 预测 的 实例 

根据 某 省 交通 统计 汇编 材料 得 到 表 4. 7 中 所 列 数据 ,包括 某 省 1987—2006 年 全 社会 客 
运 量 , 旅 客 周转 量 、 公 路 客运 量 和 公路 旅客 周转 量 。 

运行 非 线 性 回归 中 的 多 项 式 预 测 模型 ,以 参数 m 二 5 为 例 , 得 到 运行 界面 如 图 4. 4 
所 示 。 
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表 4.7 某 省 全 社会 客运 量 .旅客 周转 量 . 公 路 客运 量 和 公路 旅客 周转 量 


Ey 客运 量 Xi 旅客 周转 量 X 公路 客运 量 X, | 公路 旅客 周转 量 X, 
/万 人 LAT% /万 人 ATX 

1987 10 091 88. 4 8552 59.9 
1988 10 551 93. 46 8864 64.81 
1989 10 389 94.01 8928 97. 66 
1990 10 702 87. 67 9475 65.77 
1991 11 078 95. 86 9880 71.83 
1992 10 565 99. 98 9277 69. 89 
1993 11 063 TIES 9528 73.38 
1994 25 163 146. 87 23 518 01.77 
1995 21 697 137, 93 20 095 93.1 
1996 23 904 149. 94 22 397. 1 02.4 
1997 25 003. 7 172.4 23 437.9 19.5 
1998 29 863 189. 85 28 048 31.8 
1999 32 962. 2 237. 99 30 796 64.2 
2000 33 704 237. 94 31 586 71.2 
2001 39 984. 4 304. 2 37 909 232.76 
2002 38 879. 6 281.6 36 726 210.1 
2003 35 156 263. 45 33 039 192. 87 
2004 38 902 317.76 36 502 227.21 
2005 41 079 331. 6 38 509 233. 12 
2006 43 844 362. 4 40 861 247.71 


面 多 项 式 曲线 形式 加 回回 


归 方 程 
输入 n 的 值 m>=2) |5 了 


ii 34214. 0534-12916. 153eX” 144287. 6340X” 24-466, 9349X 3416. 2529X" 44-0. 113X" 5 


数据 显示 区 


RS | 年份 客运 量 总计) 
1994 25163 
1995 21697 
1996, 23904 
1997 25003. 7 
1996 29663 
1999 32982. 2 
2000 33704 
2001 39984. 4 
2002 38879. 6 
2003 35156 
2004 38902 

(62677. 057 2005 41079 

2006 43844 


(39752. 179, 65601. 935) 


xan | smazano | mezzo | 


图 4.4 多 项 式 预测 模型 运行 界面 


多 项 式 预测 模型 (参数 m 二 5) 的 统计 检验 过 程 如 图 4. 5 所 示 。 


i 多 项 式 统计 检验 


Sk it & 


显著 性 水 平 foo z] 


Petes 


了 R 2= Fsss 


结论 P 9598 (R 越 接近 于 1, 模型 的 拟 合 忧 度 越 高 ) 


Fae 


T= [287.8493 临界 值 Fw= [4 8443 


结论 Bii MENSAE RIEA 


ER x 


A 通过 拟 合 已 度 检验 和 检验， 模型 适用 ,请 回 到 多 项 式 界面 ? 


m] 


图 4.5 多 项 式 预测 模型 统计 检验 过 程 图 


为 了 观察 预测 模型 对 原始 数据 的 拟 合 效果 , 单 击 “ 数 据 拟 合 ”按钮 ( 见 图 4.4) ,得 到 的 预 
测 模型 拟 合 效果 界面 如 图 4.6 所 示 。 


= 预测 模型 数据 拟 合 i 


预测 模型 数据 拟 合 图 形 


客运 量 ( 总 计 ) 


一 一 "预测 数据 


1994 1997 2000 2003 2006 


图 4.6 多 项 式 预测 模型 对 原始 数据 拟 合 图 形 (m 二 5) 


通过 对 表 4.7 中 的 客运 量 和 旅客 周转 量 、 公 路 客运 量 和 公路 旅客 周转 量 数据 分 别 进 行 
运算 ,得 到 非 线性 回归 曲线 方程 见 表 4. 8。 
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表 4.8 各 种 非 线性 预测 模型 的 曲线 方程 


客运 量 X, 旅客 周转 量 XX 公路 客运 量 Xs 公路 旅客 周转 量 Xa 
Y=20 139, 248 X X°?7? Y=113. 517 X XS Y=18 774, 511 X X°?” Y=77. 038 X X° 4 
双 曲 线 a : jos yee Pw ix ex R 
模型 1/Y=0. 000 03+1/X 1/Y=0. 003 43+1/X | 1/Y=0. 000 03+1/X 1/Y=0. 004 79+1/X 
对 数 函 | Y=18 330, 605+8506, 681 | Y= 85. 365 十 89. 755 Y=17 071. 195 十 8047. 939 

Y=56. 196+66, 38 X InX 

数 模型 | XInx XIlnX XlnX > i 
指数 函 


Y=21 798, 595 X ef 0x0 | Y= 128, 220 X eX | 了 一 20 368, 250X eP | 了 一 88. 142 X e0- 


数 模型 


多 项 式 | Y=19 311. 878+2301. 041 | Y=108. 696 十 18.771 
模型 XX— 37. 005X X? XX+0. 015 X X? 


Y=17 754. 345 十 2286. 716 | Y=63. 906 十 18. 056X X 
X X—43. 313X X? —0, 301X X? 


4.3 趋势 外 推 预测 模型 


趋势 外 推 法 的 基本 理论 是 : 事物 发 展 过 程 一 般 都 是 渐进 式 的 变化 ,而 不 是 跳跃 式 的 变 
化 ,决定 事物 过 去 发 展 的 因素 在 很 大 程度 上 也 决定 该 事物 未 来 的 发 展 ,事物 的 变化 不 会 太 
大 。 依 据 这 种 规律 推导 ,就 可 以 预测 出 它 的 未 来 趋势 和 状态 。 趋 势 外 推 预 测 模型 是 在 对 研 
究 对 象 过 去 和 现在 的 发 展 作 了 全 面 分 析 之 后 ,利用 某 种 模型 描述 某 一 参数 的 变化 规律 ,然后 
以 此 规律 进行 外 推 。 趋 势 外 推 预测 模型 包括 皮尔 预测 模型 . 克 珀 兹 预测 模型 . 林 德 诺 预 测 模 
型 和 其 他 一 些 生 长 曲线 和 包 络 曲线 预测 模型 等 。 建 立 趋势 外 推 预测 模型 主要 包括 六 个 步 
又 : 选择 预测 参数 ;收集 必要 的 数据 ; 拟 合 曲 线 ; 趋 势 外 推 ;预测 说 明 ; 研 究 预测 结果 在 制订 
规划 和 决策 中 的 应 用 。 


4.3.1 皮尔 预测 模型 


1. 皮尔 (Pearl) 曲线 数学 模型 

皮尔 (Raymond Pearl,1870 一 1940) 是 美国 生物 学 家 和 人 口 统计 学 家 ,他 曾 对 生物 繁殖 
和 人 口 增长 进行 过 集中 研究 ,发 现 它们 都 符合 S 型 曲线 的 规律 。Pearl 曲线 能 较 好 地 描述 技 
术 增 长 和 新 技术 扩散 过 程 。 例 如 , 某 种 耐用 消费 品 的 普及 过 程 .流行 商品 的 累计 销售 额 以 及 
被 置 于 孤岛 上 的 动 植物 增长 现象 等 。 

皮尔 曲线 的 数学 模型 为 


yo = Ts (4.12) 
ae 


其 中 : a>0,b>0,t WITH) Ly HER (A A BRED 。 
皮尔 曲线 参数 的 求解 方法 如 下 A SAE Al) FOE A HR EL YE GS TE SE ET E i Be EDT Ti] FF 
列 的 等 时 距 变 换 , 然 后 将 等 时 间 序 列 的 样本 分 为 三 段 : 第 一 段 为 1 二 1,2,3,…,7; 第 二 段 为 
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一 r 十 1,r 十 2,r 十 3,…，,27r; 第 三 段 为 盖 2r 十 1,27r 十 2,27r 十 3,…,3r。 设 S,S: ,Ss 分别 为 这 
三 个 段 内 各 项 数值 的 倒数 之 和 , 则 有 


2r 
= ores (4. 13) 


T. J aë 
pr ale (4. 14) 
则 有 
1 a = r ,ae*(l—e®) 
a Zig L LAS L' Ld—e*) 
2r 
o 1 — yr , ae t(]—e*) 
== pa ya) L Te) ae 
3r 
加 r er) 
S= 2 5@ Lt ta) 
于 是 各 参数 的 计算 公式 为 
In (Si = 8a) 
i= 一 全 一 一 (4.16) 
r 
pæn o o 本 
I = Ges: (4.17) 
1 


(Si — S,) — (S; — S;) 
(S, —S,)? 1 —e*)L 
[(S, — S2) — (S: — Sz) Je (1 —e*) 
2. 应 用 皮尔 曲线 模型 进行 客运 量 预测 
根据 表 4.7 中 的 数据 ,应 用 皮尔 曲线 模型 对 某 省 全 社会 客运 总 量 进行 预测 ,得 到 的 运行 
界面 如 图 4.7 所 示 。 
为 了 观察 预测 模型 对 原始 数据 的 拟 合 效果 , 单 击 “显示 拟 合 图 形 ” 按 钮 ,得 到 的 拟 合 图 形 
如 图 4. 8 所 示 。 
通过 对 某 省 全 社会 客运 量 和 旅客 周转 量 、 公 路 客运 量 和 公路 旅客 周转 量 时 间 序 列 数 据 
分 别 进行 运算 ,得 到 对 应 的 皮尔 预测 模型 参数 和 曲线 方程 如 表 4. 9 所 示 。 
利用 表 4. 9 所 列 的 预测 模型 ,通过 计算 得 出 不 同 运 量 预测 对 象 的 预测 值 序列 Xi ,X。， 
文 ; X (参见 表 4. 10) ,同时 列 出 预测 序列 对 原 数据 序列 的 拟 合 相对 误差 值 Al ,As ,As A 和 


各 自 的 平均 相对 误差 AUCAS (1) — 2, (1))/2 (1) X100%)。 
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a= 


(4, 18) 


Ml 玻 尔 预测 寞 型 


0. 1049 10. 1078 
: 
TN Wal 99770. 3509/ (1+10. 107Bexp CO. 1049#t 


15620. 4610 
17052. 5308 
18586. 8921 
20225. 5556 
21969. 5920 
23818. 9834 
25772. 4845 


预测 模型 数据 拟 合 图 形 


图 4.8 皮尔 预测 模型 对 原始 数据 的 拟 合 图 形 
表 4.9 不 同时 间 序 列 的 皮尔 预测 模型 参数 和 曲线 方程 


参数 和 方程 
预测 对 象 


皮尔 曲线 方程 


99 770. 3509 
(1+10. 107867) 


全 社会 客运 量 Xi 99 770. 3509 10. 1078 Xi (一 


1157.7932 


Ly LEN = 
全 社会 旅客 周转 量 Xa 1157. 7932 11. 1763 Xs (D = TIT 1763670 Hy 
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参数 和 方程 ees 
预测 对 象 皮尔 曲线 方程 


79 255. 3012 


JN ťa y. 55 5 5 ala ERA. oo TEP. 

公路 客运 量 X 79 255. 3012 0. 1192 9. 5699 X= Fo, sedo Mim 
7 1925. 3401 

oA 2 Re FE tf: Eh E 2, j f 二 ~ ON IU 

公路 旅客 周转 量 Xa 1925. 3401 0. 0806 34. 3134 XD = TT a 


表 4.10” 不 同 预测 对 象 的 皮尔 模型 拟 合 值 和 相对 误差 序列 (1997 一 2006 年 ) 


SEAS Xe A xX X: As xX, Aa 
0, 0 0 
/万 人 /% | / 亿 人 千 米 /万 人 /% | / 亿 人 千 米 | 1% 
1997 23 818. 98 4.97 172.37 22 148. 41 5. 82 27.2025 6. 08 
1998 25 772. 48 15. 87 189. 85 24 100, 09 16. 38 37,1215 3. 88 


1999 27 827.5 18. 45 237.99 26 145. 02 17.79 47.7505 11.13 


2000 29 979. 99 12.42 237.94 28 274.5 1A 72 59.13 7.58 
2001 32 224. 4 24. 08 304. 2 30 477.9 24. 38 71.3016 35. 88 
2002 34 553. 64 12.52 281.6 32 742. 73 12.17 84, 3069 13. 99 
2003 36 959. 13 4.88 263.45 8.35 35 054. 91 5.75 98. 1881 2. 68 
2004 39 430. 82 1. 34 317.76 24. 28 37 399. 08 2.4 212. 9868 6. 68 


2005 41 957.4 2.09 331.6 39 759 3.14 228. 7443 1.91 
2006 44 526. 4 1.53 362.4 42 117. 98 2.98 245. 5003 0.9 


A/% 9.81 18. 31 10. 25 9.07 


x 说明: 4.3. 2 节 和 4.3.3 节 中 的 Xi ,Xes,Xas ,Xi,AlyAs,As,Ai 的 意思 均 和 此 节 相同 。 


通过 分 析 表 4. 10 所 列 的 平均 相对 误差 ,可 以 看 出 皮尔 曲线 模型 预测 方法 对 某 省 全 社会 
客运 量 和 公路 旅客 周转 量 的 预测 效果 较 好 。 可 以 较 好 地 拟 合 出 运 量 数据 的 发 展 趋势 ,而 且 
随 着 时 间 的 推进 ,预测 序列 和 原 序 列 越 来 越 贴近 ,因此 皮尔 曲线 预测 方法 比较 适用 于 长 期 预 
测 ,得 到 的 曲线 方程 也 能 较 好 地 反映 出 预测 对 象 在 未 来 的 发 展 趋势 。 


4.3.2 AWR 


1. 239% (Gompertz) 曲线 数学 模型 
Z H24 (Benjamin Gompertz,1779 一 1865) 是 英国 统计 学 家 和 数学 家 ,他 在 研究 控制 死 
亡 率 问题 时 提出 了 一 种 曲线 ,被 人 们 称 作 瘤 珀 效 曲 线 , 可 以 用 于 技术 增长 和 技术 扩散 预测 。 
1) 数学 模型 
X(t) = Ka” (4.19) 
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通常 0<a<1 AOO<b< 1, , XO Oy PRB t 为 时 间 ,k 为 渐进 线 值 (极限 值 )。 对 
Gompertz 模型 两 边 同 时 取 对 数 , 可 以 得 到 ln(Y,/ 开 ) 一 zlna, 再 取 对 数 , 则 得 Inin(Y,/K) = 
tlnb 十 ln(1/4), 式 中 a6 为 待定 参数 。 

2) 模型 参数 估计 

应 用 最 小 二 乘 原理 取 待定 系数 a、b。 构 造 新 方程 : 


$= > [znb + In(1/a) — Inln(K/Y,) F (4, 20) 
a$ ag 
= 一 0 ,由 
~ alnb Ossinlnk t/a) 0, 则 
>)2lnp 十 >)tlnln(1/a) = X} inln(K/D) (4. 21) 
SJ dnb + >ylnln(1/a) = >)Inln(K/O) (4, 22) 


联 立 上 述 两 式 ,构建 向 量 , 求 得 参数 Al: 
Ind 7 oe >y: 
OA Se a 
2. MARIE h RIRE TSS MM 


根据 表 4.7 P KY E 5 DE H ZE A 2 h ER TAI EE A AT AE ZA A es FT. Ps ÍT 
界面 如 图 4.9 所 示 。 


(4, 23) 


[Ddnln(k/y)) 
DJ Inln(k/y) 


Prorat re BEE 


105665. 8438 
|8299. 915126 


,趋势 拟 和 值 

8552 6059.4724 
8864 7249. 1023 
8928 8575. 3534 
3475 10037. 9333 
9880 11634. 5070 
9277 13380. 7853 
9528 15210. 6705 
23518 17176. 4480 
20095 19249. 0114 
22397. 1 21418. 1086 
23437. 9 23672. 6001 
28048 26000. 7157 
30796 28390. 3041 


图 4.9 Se IAZA h R T He i T FF 


为 了 观察 预测 模型 对 原始 数据 的 拟 合 效果 , 单 击 “ 显 示 拟 合 图 形 ” 按 钮 ,得 到 的 拟 合 图 形 
如 图 4. 10 所 示 。 
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画 显示 数据 氢 合 图 形 


预测 模型 数据 拟 合 图 形 


mm em IE 


图 4.10 故 珀 兹 预测 模型 对 原始 数据 拟 合 图 形 
通过 对 某 省 全 社会 客运 量 和 旅客 周转 量 、 某 省 公路 客运 量 和 公路 旅客 周转 量 时 间 序 列 
数据 分 别 进行 运算 ,得 到 末 珀 兹 预测 模型 的 参数 和 曲线 方程 如 表 4. 11 所 示 。 
表 4.11 不 同时 间 序 列 的 袭 珀 兹 预测 模型 参数 和 曲线 方程 


预测 对 象 化 珀 兹 曲线 方程 


全 社会 客运 量 X 127 776. 0752 X1 (1)=127 776. 0752 X 0. 048209443A4 


根据 表 4. 11 所 列 的 歼 珀 兹 预测 模型 ,计算 得 出 不 同 预 测 对 象 的 化 珀 效 模型 拟 合 值 和 相 
对 误差 序列 ,如 表 4. 12 所 示 。 

通过 分 析 表 4. 12 所 列 的 平均 相对 误差 ,可 以 看 出 厅 珀 兹 曲线 模型 预测 方法 对 某 省 全 社 
会 客运 量 、 旅 客 周转 量 和 公路 客运 量 的 预测 效果 较 好 。 发 现 某 省 全 社会 客运 量 、 公 路 客运 量 
的 发 展 趋势 是 先 快速 增加 ,后 缓慢 增加 ;而 某 省 全 社会 旅客 周转 量 . 公 路 旅客 周转 量 的 发 展 
趋势 是 先 缓慢 增加 ,后 快速 增加 。 这 是 因为 旅客 周转 量 反映 的 是 运输 业 旅 客运 输 工 作 量 的 
综合 性 指标 ,是 运输 工具 所 载运 的 全 体 旅 客运 送 距 离 的 综合 ,因此 旅客 周转 量 的 增长 是 运 量 
的 增长 和 运输 距离 同时 增长 的 结果 。 近 年 来 , 某 省 的 公路 里 程 数 逐年 增加 ,因此 旅客 周转 量 
的 增长 速率 也 越 来 越 快 , 厅 珀 兹 曲线 的 预测 结果 很 好 地 说 明了 这 一 趋势 ,非常 适用 于 长 其 
预测 。 


全 社会 旅客 周转 量 Xe 16. 0407 X(t) =16. 0407 X 4, 60631 44" 


公路 客运 量 Xs 105 665. 8438 Xs(t)=105 665. 8438 X 0, 0474% 973M: 


公路 旅客 周转 量 Xa 45. 2448 X, =45. 2448 X 1. 364511047At 


+g 


表 4.12 不 同 预 测 对 象 的 袭 珀 兹 模型 拟 合 值 和 相对 误差 序列 (1995 一 2006) 


ee | 六 A a 名 a x A 

/万 人 /% | ALAF /万 人 /% | / 亿 人 千 米 | /% 
1995 20 903. 72 3. 79 142, 2857 19 249. 01 4.39 96. 9022 3.92 
1996 28 L22: 28 3.38 155. 4234 21 418. 11 4.57 04.9471 2.43) 
1997 25 432. 97 1.69 170. 3818 23 672.6 0.99 14.613 4. 24 
1998 27 826. 49 Tse 187.4755 26 000. 72 7.87 26. 3295 4, 33 
1999 30 293. 08 8.81 207. 0838 28 390.3 8.47 40.6701 16. 73 
2000 32 822. 63 2.69 229. 6654 30 829. 07 2.46 58. 4122 8.07 
2001 35 404. 83 12.93 255. 7784 33 304. 77 3.82 80. 625 28. 86 
2002 38 029. 37 2.24 286. 1043 35 805. 44 2.508 208. 802 0. 62 
2003 40 686. 04 13.59 321.4799 Oe 38 319.5 3.78 245. 0666 rA 
2004 43 364. 82 10. 29 362. 9374 40 835. 96 0.61 292. 4937 2 
2005 46 056. 07 10. 81 411.7571 43 344. 45 1. 16 355.627 34. 45 
2006 48 750.5 10. 06 469.5351 22.82 45 835. 38 0.85 441.3275 43. 87 
A/% as 10. 07 7.62 15.92 


4.3.3 林 德 诺 预测 模型 


1. 林 德 诺 (Ridenour) 曲线 数学 模型 

林 德 诺 生长 曲线 模型 常用 于 新 技术 发 展 和 新 产品 销售 的 预测 , 林 德 诺 模型 是 基于 下 述 
假设 条 件 建立 的 : 新 产品 的 推广 或 熟悉 新 产品 的 人 数 的 增长 率 与 已 熟悉 新 产品 的 人 数 和 未 
熟悉 新 产品 的 人 数 的 乘积 成 正比 。 

其 数学 模型 的 一 般 形式 为 : 

NG) = 一 Cna>0) (4. 24) 

1+ (T1) 
其 中 ,NGC 为 上 时 的 预测 量 ; No 为 t= to 时 的 量 ;a 为 校正 系数 ;L 为 N (2) 的 极限 值 。 

因 Pearl 预测 模 型 的 形式 为 NW = >0. 因此 不 难看 出 Pearl 模型 和 
Ridenour 模型 满足 的 是 同一 个 微分 方程 ,求解 的 方式 相似 ,可 转换 为 : 


G `P T (1 E T] 


2. 应 用 林 德 诺 曲 线 模型 进行 客运 量 预 测 
根据 表 4. 7 中 的 数据 ,应 用 林 德 诺 曲线 模型 对 某 省 旅客 周转 量 进行 预测 。 根 据 预 测 对 
. 9] 。 


(4. 25) 


象 数据 时 间 序 列 ,程序 运行 的 结果 界面 如 图 4. 11 所 示 。 


m HERRIRA 


41 1157. 7932 
gg |1157. 7932/ (1+-14. 095Texp (-0. 0641% 


94. 7370 
101.5537 
108. 9035 
116. 8346 
125. 4005 
134. 6608 
144. 6819 
155. 5386 
167.3146 
180, 1045 
194.0151 
209. 1682 
225. 7024 


图 4.11 林 德 诺 模型 预测 运行 界面 


为 了 观察 预测 模型 对 原始 数据 的 拟 合 效 果 , 单 击 “ 显 示 拟 合 图 形 ” 按 钮 ,得 到 的 拟 合 图 形 
如 图 4. 12 所 示 。 


i 显示 数据 拟 合 图 形 rm TY 


预测 模型 数据 拟 合 图 形 
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图 4.12 林 德 诺 预 测 模型 对 原始 数据 拟 合 图 形 


通过 对 某 省 全 社会 客运 量 和 旅客 周转 量 、 公 路 客运 量 和 公路 旅客 周转 量 时 间 序 列 数据 
分 别 进行 运算 ,得 到 林 德 诺 预测 模型 的 参数 和 曲线 方程 如 表 4. 13 所 示 。 
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表 4.13 不 同时 间 序 列 的 林 德 诺 预 测 模型 参数 和 曲线 方程 


预测 对 象 ao i b= (51) 林 德 诺 曲 线 方程 

全 社会 客运 量 X 99 770. 3509 8. 8871 W000 
全 社会 旅客 周转 量 Xe 一 1157.7932 一 14. 0957 Xs (= 
公路 客运 量 X 79 255. 3012 8.2675 | Xos o RS 
公路 旅客 周转 量 Xa 1925. 3401 | 0.0806 31.1318 | X= BO 


通过 表 4. 13 所 列 的 林 德 诺 预测 模型 ,计算 得 出 不 同 预测 对 象 的 林 德 诺 模 型 拟 合 值 和 相 


对 误差 序列 如 表 4. 14 所 示 。 

表 4.14 不 同 预测 对 象 的 林 德 诺 模型 拟 合 值 和 相对 误差 序列 (1995 一 2006 年 ) 
年 份 | 六 A | Xe = x, P X, 

/万 人 /% | / 亿 人 千 米 | /% /万 人 ) | /% |/ 亿 人 千 米 | /% 
1995 22 380.55 3.05 167.3146 20 707. 99 2.96 19.8148 22:3 
1996 24 253. 75 1. 44 180. 1045 16.75 22 582. 94 0. 82 29. 1991 20.74 
1997 26 230. 59 4.68 194.0151 24 556. 45 4.55 39. 2618 14,21 
1998 28 308. 16 5.49 209. 1682 9.24 26 621. 4 5. 36 50. 0428 12.16 
1999 30 482. 08 8.14 225, 28 768. 67 7.05 61.5828 1.62 
2000 32 746. 44 2.92 243. 30 987. 18 1.93 13, 9235 1,54 
2001 35 093. 81 13.94 263. 33 264. 04 13.96 87. 1067 24.4 
2002 31 515. 27 3.64 285 35 584. 87 3.21 201. 1743 4.44 
2003 40 000. 47 12.11 309. 2204 14.8 37 934. 06 12.9 216.1681 10.78 
2004 42 537, 81 8.55 335. 6051 5. 32 40 295. 24 9.41 232,129 2:12 
2005 45 114. 62 8.95 364. 8009 9.1 42 651. 68 9.71 249.0966 6.41 
2006 47 717. 38 8.12 397. 2122 8.76 44 986. 81 9.17 267. 1088 7.26 
A/% 6.75 9.76 6.75 10. 66 

通过 分 析 表 4. 14 所 列 的 平均 相对 误差 ,可 以 看 出 林 德 诺 曲 线 模型 预测 方法 的 对 客运 量 


数据 序列 的 预测 精度 要 高 于 皮尔 曲线 模型 。 其 中 对 某 省 全 社会 客运 量 和 公路 客运 量 的 预测 
效果 较 好 ,也 较 适 用 于 长 期 预测 。 
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4.4 时 间 序 列 预 测 模型 


4.4.1 移动 平均 预测 模型 


1. 移动 平均 法 的 数学 模型 

1) 一 次 移动 平均 法 

一 次 移动 平均 法 是 在 算术 平均 法 的 基础 上 加 以 改进 ,其 基本 思想 是 每 次 取 一 定数 量 周 
期 的 数据 平均 ,按时 间 顺序 逐次 推进 。 每 推进 一 个 周期 , 舍 去 前 一 个 周期 的 数据 ,增加 一 个 
新 周期 的 数据 ,再 进行 平均 。 一 次 移动 平均 法 一 般 只 应 用 于 一 个 时 期 后 的 预测 ( 即 预测 第 
t+1 期 )。 

一 次 移动 平均 法 预测 模型 ， 

Yun = MY (4, 26) 

其 中 ,一 次 移动 平均 数 MP = eden 代表 第 1 期 一 次 移动 平均 值 ， 


N 代表 计算 移动 平均 值 时 所 选 定 的 数据 个 数 。 一 般 情况 下 ,NN 越 大 , 修 匀 的 程度 越 强 ,波动 
也 越 小 ;NN 越 小 ,对 变化 趋势 反应 越 灵 敏 , 但 修 匀 的 程度 越 差 。 实 际 预测 中 可 以 利用 试 算 
法 , 即 选择 几 个 N 值 进 行 计算 ,比较 它们 的 预测 误差 ,从 中 选择 使 误差 较 小 的 NN 值 。 

2) 二 次 移动 平均 法 

当 序列 具有 线性 增长 的 发 展 趋势 时 ,用 一 次 移动 平均 预测 会 出 现 滞后 偏差 ,表现 为 对 于 
线性 增长 的 时 间 序 列 预测 值 偏 低 。 这 时 ,可 进行 二 次 移动 平均 计算 ,二 次 移动 平均 就 是 将 一 
次 移动 平均 再 进行 一 次 移动 平均 来 建立 线性 趋势 模型 。 

二 次 移动 平均 法 的 线性 趋势 预测 模型 

Vue 一 六 十 br (4. 27) 


其 中 , 截 距 为 勾 一 2M — M,? ,斜率 为 b= MY — MP) 为 预测 超前 期 。M, ”为 一 


次 移动 平均 数 , M ”代表 第 上 期 二 次 移动 平均 值 二 次 移动 平均 数 , 计 算 公 式 为 M? = 


MO EMO EMON, N 代表 计算 移动 平均 值 时 所 选 定 的 数据 个 数 。 


二 次 移动 平均 法 有 多 期 预测 能 力 , 短 期 预测 效果 较 好 ,操作 简单 但 不 能 应 付 突 发 事件 。 

确定 计算 期 数 N 的 多 少 对 这 种 预测 的 影响 很 大 。 计 算 期 的 多 少 应 根据 未 来 趋势 与 过 
去 的 关系 确定 。 移 动 平均 预测 模型 中 移动 平均 数 N 的 选择 为 : 期 数 越 多 , 修 匀 的 作用 越 
大 ,趋势 就 越 平滑 ;反之 则 反映 波动 灵敏 。 一 般 来 说 ,当时 间 序 列 的 变化 趋势 较为 稳定 时 ， 
N 可 以 取 大 些 ;当时 间 序 列 波动 较 大 ,变化 明显 时 ,NN 可 以 取 小 些 。 从 理论 上 说 , 它 应 与 循 
环 变动 或 季节 变动 周期 吻合 ,这 样 可 以 消除 循环 变动 和 季节 变动 的 影响 。 实 际 预测 中 可 以 
利用 试 算法 , 即 选 择 几 个 N 值 进行 计算 ,比较 它们 的 预测 误差 ,从 中 选择 使 误差 较 小 的 
N 值 。 

2. 移动 平均 数学 模型 应 用 举例 一 


某 地 区 各 工商 单位 1993 一 2001 年 缴纳 的 税金 数据 如 表 4. 15 第 二 栏 , 试 用 二 次 移动 平 
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均 法 预测 2002 年 及 之 后 两 年 的 税金 额 。 从 工商 税金 数据 的 观察 值 判断 ,该 时 间 序 列 近 似 值 
呈 直 线 上 升 趋势 ,可 用 二 次 移动 平均 法 预测 。 为 了 提高 灵敏 度 N 取 3。 根 据 公式 (4.26) 计 
算 一 次 平均 移动 平均 值 如 表 4. 15 的 第 三 栏 ;根据 公式 (4. 27) 计 算 的 二 次 移动 平均 值 如 
表 4. 15 所 示 的 第 四 栏 。 参 数 à, ,2 的 计算 如 下 : 

a, =2M —M® 一 2153. 33X 2—1935, 55 一 2371. 11 


b= SM” M? )= (253. 33—1935. 33) =217. 78 


表 4.15 1993—2001 年 某 地 区 各 单位 缴纳 的 税金 数据 和 一 次 、 二 次 移动 均值 (N=3) 


年 份 工商 税金 Y,( 万 元 ) 一 次 移动 均值 Me 二 次 移动 均值 M? 
1993 820 一 

1994 950 

1995 1140 970. 00 

1996 1380 1156. 67 

1997 1510 1343. 33 1156. 67 
1998 1740 1543. 33 1347. 78 

1999 1920 1723. 33 1536. 66 
2000 2130 1930. 33 1732, 22 

2001 2410 2153. 33 1953, 33 


数据 来 源 : 参考 文献 [66] 


根据 yer. =a, HOr 模型 ,预测 公式 为 p =2371. 11 +217. 28r, 设 2002 年 r* 王 1,2003 年 
rt 二 2,2004 年 rz 一 3, 则 预测 值 分 别 为 : 
jos = 2371. 11 + 217. 78 X 1 = 2588. 89 
F003 = 2371. 11 + 217. 78 X 2 = 2806. 67 
Yao0r = 2371. 11 +217. 78 X 3 = 3024. 45 


3. 移动 平均 数学 模型 应 用 举例 二 

根据 表 4. 7 的 数据 ,应 用 移动 平均 模型 对 某 省 全 社会 客运 总 量 进行 预测 ,得 到 一 次 移动 
平均 和 二 次 移动 平均 预测 结果 ,程序 运行 界面 如 图 4. 13 所 示 。 

为 了 观察 预测 模型 对 原始 数据 的 拟 合 效果 , 单 击 “* 数 据 拟 合 ”按钮 ,得 到 的 拟 合 图 形 如 
Al 4.14 所 示 。 


4.4.2 指数 平滑 预测 模型 


指数 平滑 法 是 用 过 去 时 间 数 列 值 的 加 权 平 均 数 作为 预测 值 , 它 是 加 权 移 动 平 均 法 的 一 
种 特殊 情形 。 根 据 平 滑 次 数 的 不 同 ,指数 平滑 法 分 为 一 次 指数 平滑 法 、 二 次 指数 平滑 法 和 三 
次 指数 平滑 法 等 。 但 它们 的 基本 思想 都 是 : 预测 值 是 以 前 观测 值 的 加 权 和 ,对 不 同 的 数据 
给 予 不 同 的 权 , 新 数据 给 较 大 的 权 , 旧 数据 给 较 小 的 权 。 
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预测 结果 |45625. 09 


数据 显示 区 


年 份 S28 Gi) [一次 移动 ] 三 
25163. 00 


23588. 00 
23534. 90 
26256. 90 
29276. 30 
32176. 40 
35550. 20 
37522. 67 
38006. 67 
37645. 87 
38379. 00 
41275. 00 


返回 主 窗口 @) 


系统 帮助 0D) 
退出 系统 @) 


BR Ynnyy 


预测 模型 数据 拟 合 图 形 


客运 量 (总 计 ) 


一 一 ”预测 数据 


1994 1997 2000 2003 2006 


退 出 


图 4.14 二 次 移动 平均 预测 模型 对 原始 数据 拟 合 图 形 (N=3) 


1. 指数 平滑 预测 模型 
1) 一 次 指数 平滑 法 
设 时 间 序 列 为 m ,ys，…,y,, 则 一 次 指数 平滑 公式 为 : 
SP 一 ay 十 (1 一 oSS (4, 28) 
ARU. 28) 中 SP 为 第 1 周期 的 一 次 指数 平滑 值 ;c IMAL AB 0<a<1. WT FRE 
数 平 滑 的 实质 ,将 上 述 公 式 依次 展开 ,可 得 : 


é De s 


SP = a>) Aay 十 (1 一 oS 史 (4. 29) 


由 于 O<a<1, 4 上 ~ce 时 ,(1 一 co) 一 0, 于 是 上 述 公 式 变 为 : 


SP =a>)A—adiy.; (4, 30) 
j=0 
以 第 上 周期 的 一 次 指数 平滑 值 作为 第 :十 1 期 的 预测 值 为 : 
Yn = SL = ay, (1—o)y, (4.31) 


2) 二 次 指数 平滑 法 
当时 间 序 列 没 有 明显 的 趋势 变动 时 ,使 用 第 上 周期 一 次 指数 平滑 就 能 直接 预测 第 :十 1 期 
之 值 。 但 当时 间 序 列 的 变动 出 现 直 线 趋势 时 ,用 一 次 指数 平滑 法 来 预测 存在 着 明显 的 滞后 
偏差 。 修 正 的 方法 是 在 一 次 指数 平滑 的 基础 上 再 作 二 次 指数 平滑 ,利用 滞后 偏差 的 规律 找 
出 曲线 的 发 展 方向 和 发 展 趋势 ,然后 建立 直线 趋势 预测 模型 , 即 二 次 指数 平滑 法 。 
设 一 次 指数 平滑 为 SV, 则 二 次 指数 平滑 SO 的 计算 公式 为 : 
SP = 6S +1—a@)S2 (4, 32) 
若 时 间 序 列 wm ,ys，…,y, 从 某 时 期 开始 具有 直线 趋势 , 且 认 为 未 来 时 期 亦 按 此 直线 趋 
势 变化 , 则 与 趋势 移动 平均 类 似 , 可 用 如 下 的 直线 趋势 模型 来 预测 ; 
Sar =a,+6,T (CT 王 1,2 ,1 (4. 33) 
公式 (4.33) 中 /为 当前 时 期 数 ;T 为 由 当前 时 期 数 上 :到 预测 期 的 时 期 数 ;y+z 为 第 上 十 工期 
的 预测 值 ;a, HRE, b 为 斜率 ,其 计算 公式 为 w 一 2S 岂 一 SP 光一 TS 一 S)。 
3) 三 次 指数 平滑 法 
若 时 间 序 列 的 变动 呈现 出 二 次 曲线 趋势 , 则 需要 用 三 次 指数 平滑 法 。 三 次 指数 平滑 是 
在 二 次 指数 平滑 的 基础 上 再 进行 一 次 平滑 ,其 计算 公式 为 : 


S® = oS + 1 —a)S8 (4, 34) 
三 次 指数 平滑 法 的 预测 模型 为 : 
Jar = a, +67 tT? (4, 35) 


其 中 : 
a, = 35 — 38% 十 5 


b, C6 — 5a) SP — 2(5 — 4a) SP + (4 — 3a) SP ] 


= a 
2(1—a)? 


[S@ 28 + S° ] 


Cr 


= a 
2(1—a)’ 


2. 指数 平滑 法 的 应 用 举例 
1) 二 次 指数 平滑 法 的 应 用 举例 
某 公 司 1990—2001 年 营业 额 如 表 4. 16 第 三 栏 , 预 测 2002—2004 年 该 公司 的 营业 额 。 
从 观察 期 时 间 序 列 资料 可 知 变动 趋势 接近 直线 上 升 , 可 用 二 次 指数 平滑 法 。 因 观察 值 期 数 
较 少 ,初始 值 用 最 初 两 期 观察 值 平均 为 124 万 元 代替 。 取 a 二 0.4。 按 公式 (4. 31) 计 算 一 次 
指数 平滑 值 , 如 表 4. 16 第 四 栏 。 
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R416 某 饮食 公司 1990—2001 年 营业 额 资 料 和 预测 过 程 (单位 : 万 元 ) 


年 份 t 年 营业 额 Y, SP (a=0.4) SP (a=0. 4) 预测 值 Y, 
1990 0 120 124.0 24.0 04.8 
1991 1 128 25. 24.6 17.5 
1992 2 130 25.7 30, 2 
1993 3 142 28.7 42.9 
1994 4 140 31.6 55. 6 
1995 5 154 36. 2 68. 3 
1996 6 170 43. 2 81.0 
1997 7 196 54, 3 93.7 
1998 8 210 67.1 206. 4 
1999 9 225 81.0 219.1 
2000 10 228 93.5 231.8 
2001 1i 245 206. 3 244.5 


数据 来 源 : 参考 文献 [66] 


Si 一 0.4X128 十 (1 一 0.4)X124 一 125. 6, SP =0.4X210 十 (1 一 0.4) X170.7= 
186.4, 其 他 略 。 

按 公式 (4. 32) ,根据 一 次 指数 平滑 资料 Si” 作 二 次 指数 平滑 ,平滑 值 如 表 4. 16 中 第 五 栏 
如 S@ =0. 4X125. 6+(1—0. 4) X124 一 124. 6, S =0. 4X186. 4 十 (1 一 0.4) X 154. 3 一 
167.1, 其 他 略 。 

预测 模型 参数 

a, 一 2S — S = 2 X 225.4— 206.3 = 244.5; 

0. 4 


b. = Qa ly _ 2) 
hb = TSP — SP) = a 


预测 方程 为 y%+r 一 244.5 十 12.7T。 
按 建立 的 预测 方程 计算 预测 值 (理论 趋势 值 ) 见 表 4. 16 中 第 六 栏 。 
Yoon = Fimo = 244.5 +12.7 X 0 = 244. 5; 


7225- 4 — 206.3) = 12.7 


Yoo = Yuu = 244.5 +12.7 X (— 1) = 231.8 
F TM Dy FET AR AS ER IT: 
Pa = Yaun = 244.5 +12.7 X1 = 257.2 


Yooos = Yiz = 244. 5 +12.7 X 2 = 269.9 


Fai = Figs = 244.5+12.7X3 = 282.6 
2) 应 用 指数 平滑 法 进行 客运 量 预测 
ge 4.7 i 应 用 指数 平滑 法 对 某 省 全 社会 客运 总 量 建立 一 次 、 二 次 和 三 次 指 
m ,其 中 一 次 指数 平滑 预测 的 程序 运行 结果 界面 如 图 4. 15 所 示 o 
ee eG 次 指数 平滑 方法 分 别 预 测 某 省 公路 客运 量 ( 数 据 
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| 


-参数 输入 
平滑 指数 = |0.7 


结果 输出 
预测 结果 2745. 2256 显示 拟 和 图 形 @) 


21697 
23904 
25003.7 23553. 84 
29863 4568. 7415 
32962. 2 8274. 7224 
33704 1555, 9562 
39984. 4 3059. 5869 
38879.6 37906. 955 
35156 8587. 8076 
38902 6185. 5423 


41079 8087.0627 3 
43844 0181. 4188 退出 系统 @) 


图 4.15 一 次 指数 平滑 预测 模型 运行 界面 


HR 4. 7 中 的 Xa) ,Xs 为 一 次 指数 平滑 预测 值 ,Xs 为 二 次 指数 平滑 预测 值 ,Xs; 为 三 次 指数 
平滑 预测 值 ,预测 结果 对 比如 表 4. 17 所 示 。 


表 4.17 利用 指数 平滑 法 预测 某 省 公路 客运 量 对 比 结果 ( 取 0.7) 


实际 公路 Xs Xu Xas 

客运 量 | 。 预测 值 ”| 相对 误差 相对 误差 | mwe ”| 相对 误差 
1994 | 23 518.0 | 23 518.0000 0% 0% | 23518.0000 0% 
1995 | 20095.0 | 23518.0000 4.55% | 21121.9000 4, 86% 


1996 22.397.1 21 121.9000 22 014. 5397 9.61% 22 014. 5397 1.74% 


年 份 


23 010. 8922 5.63% | 23 010.8922 1.86% 
6.58% | 26536. 8677 5.69% 


1997 23 437.9 22 014. 5397 
1998 28 048.0 | 23010. 8922 


1999 30 796.0 | 26 536.8677 1. 38% 29 518. 2603 4.33% 


2000 | 31586.0 | 29518. 2603 6.14% | 30 965.6781 2% 
2001 | 37 909.0 | 30965. 6781 2.65% | 35 826.0034 5.81% 
2002 | 36 726.0 | 35 826.0034 1.49% | 36456.0010 0.74% 
2003 | 33 039.0 | 36 456.0010 9.37% | 34064. 1003 4.82% | 34064. 1003 3.01% 
2004 | 36 502.0 | 34064. 1003 7.16% | 35 770.6301 2.76% | 35 770.6301 2.04% 
2005 | 38509.0 | 35 770.6301 7.66% | 37 687.4890 4.16% | 37687. 4890 2.18% 
2006 | 40861.0 | 37 687.4890 8.42% | 39 908.9467 2.24% | 39908. 9467 2.39% 


平均 相对 误差 9.96% 9.39% 2.82% 


可 以 看 出 


三 次 指数 平滑 预测 


平滑 对 公路 客运 量 年 度数 据 进行 


的 拟 合 


效果 明显 好 于 一 
合 得 到 的 相对 误差 序列 如 图 4. 16 ey 


次 和 二 


25% 


20% 


15% 


10% 


相对 误差 /% 


5% 


图 4.16 


一 次 二 次 和 三 


0 4 
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 


-+- —% 


BBCP 


F 
a 


一 = 一 二 次 指数 平滑 


sre t- 三 次 指数 平 


指数 平滑 法 拟 合 的 相对 误差 序列 曲线 


K 
= 


在 指数 平滑 法 中 ,预测 成 功 的 关键 是 a 的 选择 。a 的 大 小 规定 了 在 新 预测 值 中 新 数据 
和 原 预测 值 所 占 的 比例 。a 值 傅 大 ,新 数据 所 占 的 比重 就 愈 大 , 原 预测 值 所 占 比重 就 愈 小 ， 


反之 亦 然 。 


指数 平滑 值 与 所 有 的 数据 都 有 关 , 权 重 衰减 ,距离 现在 越 远 


权重 衰减 的 速度 取决 于 a 的 大 小 ,a 越 大 ,衰减 越 快 ;a 越 小 ,衰减 越 慢 。 


三 次 指数 平滑 预测 中 ,a 的 不 同 取 值 对 预测 效果 的 


影响 ,如 表 4. 18 所 示 。 


的 数据 权 系数 越 小 。 


表 4.18 不 同 取 值 时 的 三 次 指数 平滑 预测 结果 比较 (单位 : 万 人 ) 

年 从 实际 公路 a=0.5 a=0.7 a=0.9 

客运 量 预测 值 相对 误差 预测 值 相对 误差 
1994 | 23 518.0 | 23518.0000 0% | 23 518.0000 0% 
1995 | 20095.0 | 21 806.5000 . 85 21121. 90 4.86% | 20 437.3000 1.67% 
1996 | 22 397.1 | 22 101.7998 1.74% | 22 201.1196 0.88% 
1997 | 23 437.9 | 22 769.8501 1.86% | 23314, 2223 0.53% 
1998 | 28048.0 | 25 408.9250 6 | 265 7 5.69% | 27574.6222 .72% 
1999 | 30796.0 | 28 102.4625 4.33% | 30473. 8622 .06% 
2000 | 31586.0 | 29 844.2313 30 965. 6781 2% | 31474.7862 0.35% 
2001 | 37 909.0 | 33 876.6156 35 826. 0034 5.81% | 37265.5786 .73% 
2002 | 36 726.0 | 35 301.3078 36 456. 0010 0.74% | 36779.9579 0.15% 
2003 | 33039.0 | 34170.1539 31% 34 064. 1003 3.01% | 33413.0958 .12% 
2004 | 36 502.0 | 35 336.0770 30% | 35770.6301 2.04% | 36 193. 1096 0.85% 
2005 | 38509.0 | 36 922.5385 30% | 37 687.4890 2.18% | 38277.4110 0.61% 
2006 | 40 861.0 | 38 891.7692 06% | 39908. 9467 2.39% | 40602. 6411 0.64% 
平均 相对 误差 5.37% 2.82% 0.87% 

加 权 系 数 a 取 值 分 别 为 0.5.0.7 和 0.9 时 ,应 用 三 次 指数 平滑 对 公路 客运 量 年 度数 据 


+ 100 + 


进行 拟 合 得 到 的 相对 误差 序列 ,如 图 4.17 所 示 。 
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图 4.17 a 不 同 取 值 的 三 次 指数 平滑 拟 合 的 相对 误差 序列 曲线 


可 以 看 出 ,a 取 0.9 时 的 预测 效果 较 好 , 拟 合 原始 序列 的 平均 相对 误差 达到 了 0. 87%， 
具有 很 高 的 精度 。 因 此 ,在 选用 指数 平滑 法 进行 研究 时 ,对 于 不 同 预测 对 象 , 可 先 选择 不 同 
的 a 值 ,比较 对 原 序 列 拟 合 的 平均 相对 误差 和 拟 合 图 形 的 效果 ,确定 预测 模型 的 a 值 。 


4.4.3 季节 指数 预测 模型 


季节 指数 预测 法 是 指 变量 在 一 年 内 以 季 ( 月 ) 的 循环 为 周期 特征 ,通过 计算 变量 的 季节 
指数 达到 预测 目的 的 一 种 方法 。 季 节 指 数 法 的 预测 过 程 : 首先 分 析 判 断 时 间 序列 观察 数据 
是 否 呈 季节 性 波动 。 通 常 可 将 3 一 5 年 的 资料 按 月 或 按 季 展开 ,绘制 历史 曲线 图 ,以 观察 其 
在 一 年 内 有 无 周期 性 波动 来 做 出 判断 ;然后 将 各 种 因素 结合 起 来 考虑 , 即 考虑 它 是 否 还 受 长 
期 趋势 变动 的 影响 ,是 否 受 随机 波动 的 影响 等 。 


L 季节 指数 水 平 法 

D 季节 指数 水 平 法 模型 

第 一 步 : 收集 三 年 以 上 各 年 中 各 月 或 季 数 据 Y, ,形成 时 间 序列 。 

第 二 步 ， 计算 各 年 同 季 或 同月 的 平均 值 Yo: Y, = XY: fn Y, 为 各 年 各 月 或 各 季 观 察 
值 ,n 为 年 数 。 


第 三 步 : 计算 所 有 年 度 所 有 季 或 月 的 平均 值 Yo: Yo = YY, /n. n 为 一 年 季 数 或 月 数 。 

第 四 步 : 计算 各 季 或 各 月 的 季节 比率 f;( 即 季节 指数 ): f; 二 Y/Y,。 

第 五 步 : 计算 预测 期 趋势 值 X, 。 趋 势 值 是 不 考虑 季节 变动 影响 的 市 场 预测 趋势 估计 
值 。 其 计算 方法 有 多 种 ,可 以 采用 以 观察 年 的 年 均值 除 以 一 年 的 月 数 或 季 数 。 

第 六 步 : 建立 季节 指数 水 平 预测 模型 BET HO BY =X, + feo 

2) 季节 指数 水 平 法 应 用 举例 

某 地 区 棉衣 、 毛 衣 、 皮 衣 1998 一 2001 年 各 季 和 销售 额 如 表 4. 19 的 第 2 一 5 栏 , 试 预测 
2002 年 各 季 和 销售 额 。 具 体 预 测 过 程 如 下 : 
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D 计算 各 年 同 季 的 季 平 均 销售 额 于 表 4. 19 第 六 栏 。 如 第 一 季 为 : 


148 十 Bet 150 +145 _ 145. 25 


(2) 计算 所 有 年 所 有 季 的 季 平 均 销售 额 。 
y, = 145: a = 114.195 
(3) 计算 各 季节 比率 , 列 人 表 4.19 第 七 栏 。 如 第 二 季 为 ， 
fa = 62.5/114.125 = 54.67% 
(A) 预测 年 的 季 趋 势 值 X,。 


ao 145 + 66 +78 + 173 
a 4 


= 115.5 


(5) 2002 年 各 季 预 测 值 Y, 列 于 表 4. 19 第 八 栏 。 如 第 三 季 为 : 


Y, =115. 5X0. 6703=77. 42 
R 4.19 1998—2001 年 各 季 销 售 额 数据 及 预测 过 程 


2 各 年 销售 额 均 销 售 季节 比率 
1998 ” fi/% 
第 一 季 148 127. 27 
第 二 季 62 54.76 
第 三 季 76 67.03 
第 四 季 164 150. 93 


数据 来 源 : 参考 文献 [66] 


2. 季节 指数 趋势 法 


长 期 趋势 的 季节 指数 法 是 指 在 时 间 序 列 观察 值 卫 有 季节 周期 变化 ,又 有 长 期 趋势 变化 
的 情况 下 ,首先 建立 趋势 预测 模型 ,再 在 此 基础 上 求 得 季节 指数 ,最 后 建立 数学 模型 进行 预 


测 的 一 种 方法 。 


D 季节 指数 趋势 法 模型 


第 一 步 : 以 一 年 的 季 数 4 或 一 年 的 月 数 12 为 N, 对 观察 值 的 时 间 序 列 进行 N 项 移动 
平均 。 由 于 NN 为 偶数 ,应 再 对 相 邻 两 期 移动 的 平均 值 再 平均 后 对 正 ,形成 新 序列 M, ,以 此 


为 长 期 趋势 。 


预测 值 
Y, 
147.00 
63.25 
77.42 


174. 32 


第 二 步 : 将 各 期 观察 值 除去 同期 移动 均值 得 到 季节 比率 C=, /M,) ,以 消除 趋势 。 


第 三 步 : 将 各 年 同 季 或 同月 的 季节 比率 平均 ,季节 平均 比率 F, 可 消除 不 规则 变动 。 


i 表示 季 别 或 月 份 别 。 


第 四 步 : 计算 时 间 序 列 线性 趋势 预测 值 X, ,模型 为 X, 二 a 十 bt, 可 以 采用 多 种 方法 ,这 


里 可 以 采用 移动 平均 法 : b= 


”102。 


了 
M, K-M, HM _ > > 
M, 项 数 


第 五 步 : RETRAIA Y, =X, - F;. 

2) 季节 指数 趋势 法 应 用 举例 

某 公 司 水 产品 1998 一 2001 年 各 季 销 售 额 数据 如 表 4. 20 所 示 , 试 预测 2002 年 各 季 水 产 
品 销售 额 。 预 测 过 程 如 下 : 

(1) 将 数列 Y, 进行 四 项 移动 平均 ,平均 值 于 表 第 四 栏 如 1998 年 1.2.3、4 季 平 均值 
302. 5 放 在 3,4 季 之 间 。 

(2) 将 相 邻 两 移动 平均 值 M, 平均 对 应 于 表 第 五 栏 。 如 (302. 5 十 332. 5)/2 二 317.5 置 
1998 年 第 三 季 。 

(3) 将 同期 Y, RAM, 算出 各 期 季节 比率 f, 于 表 第 六 栏 。 如 1999 年 第 一 季 太 为 
460/401.3 一 1.1463。 

(4) 计算 季节 比率 平均 值 F;。 各 季 平 均 比率 之 和 应 等 于 季 数 。 由 于 小 数 原因 ,可 能 略 
大 于 或 小 于 季 数 ,计算 调整 系数 调整 平均 比率 。 调整 系数 一平 两 证 昌之 有 一 二 条 = 
0.9975。 将 系数 7 乘 平 均 比率 为 调整 后 平均 比率 下 ; 列 于 表 4. 21。 


表 4.20 各 季 销 售 额 数据 及 预测 (单位 : 万 元 ) 


saa 移动 均值 | 对 正 均值 > 
年 季 销售 额 六 M,(N=2) 长 期 趋势 X | HW Y, 
1998 
1999 


3 450 422. 1 
4 570 523.1 
1 530 555. 1 
2 480 483.6 
2000 
3 520 525.0 
1 670 643.3 
1 690 675.7 
2 580 583. 2 
2001 
3 620 627.9 
4 750 763.5 


数据 来 源 : 参考 文献 [66] 
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表 4.21 季节 比率 平均 值 


季 平均 比率 | 调整 比率 
1 1. 0908 1. 0881 
2 E . 8 . 89% 2.7040 | 0. 9013 0. 8991 
3 0. 9307 0. 9284 
4 1. 0872 1. 0844 


(5) 建立 趋势 模型 ,计算 各 期 线性 值 X,。 如 模型 参数 a,b 值 按 移动 平均 算法 计算 , b = 
5Y, oP 


M, 末 项 一 M 首 项 _ 650 一 317.5 _ 97 71a = 2 ím 7940 一 27.71X136 _ 

M, 项 数 16 一 4 7 n 16 
260. 72; 趋势 模型 则 为 X,=260. 72+27. 71t。 

各 年 各 季 预 测 趋势 值 X, 计算 结果 见 表 4. 20 第 七 栏 。 如 1998 年 第 一 季 与 第 二 季 为 
X,=260. 72+27. 71 X1=288. 43; X 一 260. 72 十 27.71X2 一 316. 14。 

2002 年 各 季 趋 势 预测 值 为 : 第 一 季 : Xy, = 260. 724+ 27.71 X17=731. 79; 第 二 季 ， 
Xis 二 260.72 十 27. 71 X18 二 759. 50; 第 三 季 : X =787. 21; 第 四 季 : X» =814. 92。 

(6) 各 季 预 测 Y, He Y=X, + F, 模型 计算 。 

通过 表 4. 21, 得 F, =1. 0881, F, =0. 8991, F; =0. 9284, F, =1. 0844, 

2001 年 第 四 季 以 前 计算 结果 见 表 4. 20 第 八 栏 。 

2002 年 四 个 季度 的 预测 值 分 别 为 : 第 一 季 731.79X1. 0881 =796. 3, 第 二 季 759. 50 X 
0. 8991=682. 9 ,第 三 季 787. 21X0. 9284=730. 8, 第 四 季 814. 92X1.0844 一 883. 7。 

季节 比率 平均 值 见 表 4. 21. 


4.5 基于 神经 网 络 的 预测 模型 


1. 神经 网 络 的 基础 知识 

人 工 神经 网 络 (Artificial Neural Networks,ANN) 作 为 一 种 先进 的 人 工 智 能 技术 ,十 分 

合 处 理 非 线 性 和 含 噪音 的 数据 ,尤其 是 对 那些 以 处 理 含有 模糊 、 不 完整 .不 严密 的 知识 或 
数据 为 特征 的 问题 神经 网 络 模 型 是 通过 数据 本 身 的 内 在 联系 进行 建 模 ,而 建 模 过 程 就 是 
学 习 过 程 ,是 一 种 归纳 思维 的 方法 。 所 建立 的 模型 应 具有 良好 的 适应 性 与 自学 习 能 力 BER 
的 抗 干扰 能 力 。 

误差 反 向 传播 神经 网 络 (Back Propagation Neural Networks, BPNN) 是 目前 应 用 最 广 
的 前 向 型 网 络 之 一 ,是 多 层 前 馈 神经 网 络 的 核心 部 分 ， or age enh ng 
BP 网 络 具 有 三 层 或 三 层 以 上 的 阶层 ,各 层 之 间 的 神经 元 实现 全 连接 ,而 每 层 内 各 神经 
间 无 连接 , 按 有 导师 的 方式 进行 学 习 。 在 实际 应 用 中 , 绝 大 部 分 的 BP 模型 是 采用 BP 人 
和 它 的 变化 形式 。 已 经 被 广泛 应 用 在 模式 识别 、 图 像 处 理 . 系 统 辨识 ` 函 数 拟 合 . 优 化 计算 、 
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最 优 预测 和 自 适 应 控制 等 领域 。 
BP 神经 网 络 的 基本 结构 如 图 4. 18 所 示 。 


输入 层 、 Bae 输出 层 
、 
1 1 2 2 2 
S ni ra lees | Wia "i 21% 
-= f D on P [| 
Pi 
éb! le 
1 
P2 
n} a n a 
P3 > =| f = X = f — 
: éb la 
102 
Pp 
2 nll all n22 age 
Le DD A 
a wea d 
4 
a= f\(W'p+b!) a= f2(Wa'+b?) 


a= f?(W°f'\(W'p+b')+b*) 


图 4.18 三 层 神 经 网 络 


对 于 层 数 的 划分 ,目前 有 两 种 不 同 的 观点 : 一 种 观点 是 把 输入 层 看 作 神 经 网 络 的 一 层 ， 
另 一 种 观点 认为 输入 层 不 参与 调整 权 值 , 不 进行 网 络 的 优化 计算 ,不 看 作 单独 的 一 层 。 由 于 
输入 层 是 否 应 该 算 作 一 层 并 不 影响 网 络 的 整体 效果 ,本 书 把 输入 层 算 作 神 经 网 络 的 第 一 层 。 

图 4. 18 中 字母 上 标的 数字 表示 层 数 ,其 中 输入 层 (Input Layer) 的 输入 样本 p, p=; 
ps，pa，"…，pr) bi 表示 输入 样本 的 第 i 个 元 素 。W? 表示 从 输入 层 到 隐 层 的 权 值 和 矩阵 ,zj 
表示 输入 层 的 第 ; 个 分 量 到 隐 层 的 第 j 个 分 量 的 连接 权 , 刀 表示 隐 层 的 第 i 个 神经 元 的 偏 
EAEn 表示 隐 层 第 i 个 神经 元 的 净 输 入 ,fi 表示 隐 层 的 激励 函数 。a: 表示 隐 层 的 网 络 输 
出 向 量 , 它 同时 也 是 输出 层 的 输入 向 量 。 其 他 符号 类 似 , 表 示 隐 层 到 输出 层 的 相关 值 。 


2. BP 网 络 的 算法 过 程 
BP 网 络 建 模 过 程 由 四 个 部 分 组 成 : 
(1) 输入 模式 由 输入 层 经 中 间 层 向 输出 层 的 “前 向 传播 ?过 程 ; 
(2) 网 络 的 希望 输出 与 网 络 实际 输出 之 差 的 误差 信号 由 输出 层 经 中 间 层 向 输入 层 逐 层 
修正 连接 权 的 “误差 反 向 传播 "过程 ; 
(3) 由 “前 向 传播 ”与 “误差 反 向 传播 ”的 反复 交替 进行 的 网 络 “ 记 忆 训 练 ” 过 程 ; 
(4) 网 络 趋 向 收敛 即 网 络 的 全 局 误差 趋向 极 小 值 的 “学 习 收 敛 ” 过 程 。 
1) 正 向 传播 过 程 
假设 目前 存在 一 个 样本 集合 : 
{Pisti} s {Pest} s {pasts} se s {basta} s {b111} {pssra2}, {pasas} ortts{ Parag} 
这 里 p, 为 网 络 输入 ,i 为 对 应 的 目标 输出 ,a 为 对 应 的 网 络 输出 ,每 输入 一 个 样本 对 
(basta) , 便 将 网 络 输出 与 目标 输出 相 比 较 。 算 法 将 调整 网 络 参数 ,以 使 均 方 误差 最 小 化 : 
F(x) = E[e’] = EL(t—a)’] (4. 36) 
这 里 工 是 网 络 权 值 和 偏 置 值 的 向 量 , 如 果 网 络 输出 有 多 个 , 则 上 式 的 一 般 形 式 是 : 
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F(x) 一 下 Lere] 一 ELG 一 aTG 一 a)] (4.37) 
用 某 一 个 样本 的 均 方 误差 来 代替 整体 的 均 方 误差 。 采 用 最 小 二 乘 学 习 (Least Means 
Square,LMS) 算 法 , 即 梯度 搜索 技术 ,以 使 网 络 对 实际 输出 与 期 望 输出 的 误差 平方 和 为 
最 小 。 
F(x) = e(k)Te(k) = (Ck) — a(k)) (tlk) — alk)) (4. 38) 
近似 均 方 误差 的 最 速 下 降 法 为 : 


why (RAL) = why) L oe (4, 39) 
ork +1) = mk) — LL, 2E (4, 40) 
ao 


这 里 的 工 , 是 学 习 速率 (也 称 学 习 速 度 ,也 可 以 用 字母 a 表示 )。 
由 于 误差 是 权 值 的 隐 函 数 , 所 以 下 面 用 微 积分 中 的 链 法 则 来 计算 偏 导 数 。 假 设 有 一 个 
函数 f, 它 仅 是 变量 的 显 式 函数 。 现 在 求 f 关于 变量 w 的 导数 , 链 法 则 为 : 


dfn(w)) _ df(n(w)) x dn(w) eT 
dw dn dw ; 
下 面 用 这 个 法 则 来 求 式 (4. 39) 和 式 (4. 40) 中 的 偏 导数 : 
IF = oF on™ 
Jury Ink Jul, (4. 42) 
Sor = sar * ae (4, 43) 


abr Iny “~~ abr 
每 个 等 式 的 第 二 项 都 可 以 很 容易 地 算出 ,因为 m 层 的 网 络 净 输 入 是 那 一 层 中 的 权 值 和 
ii FEL Sb IR PR BEC 


gr 
nt = >) wtar +or (4.44) 
j=1 
因此 ， 
One _ mi one 
aoe © ae (4. 45) 
如 果 定 义 
= (4. 46) 
n; 


È Xfm 层 的 输入 的 第 i 个 元 素 变化 的 敏感 性 ,也 可 以 说 是 局 部 梯度 ), 则 式 (4. 42) 和 
(4.43) 可 以 简化 为 : 


Ja T a (4.47) 
= =s (4. 48) 

现在 可 以 将 近似 下 降 法 表示 为 : 
wt, (k+1) = wt, (k) —L,sta™ (4, 49) 
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bk +1) = Ck) — Ls? (4. 50) 
用 和 矩阵 的 形式 表示 , 则 为 : 


= 
Wk +1) = wW C) — Lis” (at)? OE Vb fae ie (4,51) 
br Ck +1) = br Ck) — Lys” (4,52) 
这 里 ,有 H: 

ar 

ant 

aF 
m 2E L | ang (4, 53) 

an” a 

aF 

Inpa 


2) 反 向 传播 过 程 

现在 还 需要 计算 敏感 性 的 反 向 传播 S” ,这 要 求 再 次 使 用 链 法 则 。 正 是 这 个 过 程 给 出 了 
反 向 传播 这 个 词 ,因为 它 描述 了 第 m 层 的 敏感 性 通过 第 冯 十 1 层 的 敏感 性 来 计算 的 递 推 

推出 敏感 性 的 递 推 关 系 需 要 使 用 雅 可 比 矩 阵 ,下面 求 这 个 矩阵 的 一 个 表达 式 。 考 虑 拢 
MEANY i,j TOR: 


9 ; JP 二 17 严 m+1 
ant — tl ml ISNT) _ rt fom as ET 
an} an} Wij In? = Wij n 2 
Pent) = ED MON 
on; 
因而 雅 可 比 矩 阵 可 以 写成 
am mH 下 pn 
T (4, 56) 
an 
这 里 ， 
fran) 0 sas 0 
ary=| of r a (4,57) 
0 0 ... J” (ind 
现在 可 以 使 用 矩阵 形式 的 链 法 则 写 出 敏感 性 的 递 推 关系 式 ; 
m oF Ən T OF _ | m aso oP S PEAS 
e= SEK (4) 25 = arn wor 2E = Pee wets 
(4, 58) 
这 就 是 反 向 传播 算法 的 本 质 , 敏 感性 从 最 后 一 层 通 过 网 络 被 反 向 传播 到 最 后 一 层 : 
> > (4. 59) 
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这 里 值得 强调 的 是 ,BP 算法 使 用 的 是 在 LMS 算法 中 用 到 的 相同 的 近似 最 速 下 降 法 。 
唯一 复杂 的 是 ,为 了 计算 梯度 ,需要 首先 反 向 传播 敏感 性 。 反 向 传播 的 优点 是 可 以 很 有 效 地 
实现 链 法 则 。 

计算 递 推算 法 的 起 点 叭 , 即 网 络 的 最 后 一 层 


ght 
a>) G;—a;)? 
=1 


Wh dr =a | = 90, — a.) 2% 
rer n z7 2; —a;) ie (4. 60) 
由 于 ， 
da; _ dav dd ow om 
a oe xa fn") (4. 61) 
可 以 得 到 
M =— 20, —a;) f4 n) (4, 62) 
X FT VA HH PAI oh RR AS BK 
SM =— 2F™ (n™) (t — a) (4. 63) 
3) BP 算法 的 总 结 
第 一 步 是 通过 网 络 将 每 次 的 输入 向 前 传播 : 
=p (4. 64) 
a ea +b"), m=0,1,°°,M—1 (4.65) 
ye ii (4. 66) 
每 个 输入 向 量 的 误差 平方 和 为 
M 
E, = >) ja — a)? (4. 67) 
j=1 
总 的 平方 误差 
1 Q 
E==YE (4. 68) 
gk 
下 一 步 是 通过 网 络 将 敏感 性 反 向 传播 ; 
M =— 2FM (aM) (t— a) (4. 69) 
s = P” (n”) (Wet ) Tgh (4. 70) 
最 后 ,使 用 近似 的 最 速 下 降 法 更 新 权 值 和 偏 置 值 : 
W” (RE 十 1) = W” Ck) —L,s™(a™ )T (4.71) 
Ck +1) = b” (k) — Ls” (4, 72) 


至 此 ,BP 算法 完成 一 次 完整 的 训练 过 程 。 重 复 整个 过 程 , 直 到 达到 设 定 的 最 小 误差 或 
者 最 大 的 学 习 次 数 , 则 BP 算法 完成 ,建立 BP 神经 网 络 模型 。 

图 4. 19 为 BP 算法 的 整个 流程 。 

综 上 所 述 ,可 以 看 出 BP 算法 的 基本 思想 是 多 层 网 络 运行 BP 学 习 算 法 时 ,在 正 向 传播 
过 程 中 ,输入 信息 从 输入 层 经 隐 含 层 逐 层 处 理 , 并 传 向 输出 层 ,每 一 层 神经 元 的 状态 只 影响 
下 一 层 神 经 元 的 状态 。 如 果 在 输出 层 不 能 得 到 期 望 输出 , 则 转 入 反 向 传播 ,使 误差 信号 沿 原 
来 的 连接 通路 返回 ,通过 修改 各 层 神 经 元 的 权 值 ,使 误差 信号 最 小 。 
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连接 权 及 阔 值 初始 化 
1 
学 习 模式 对 提供 给 网 络 


4 


计算 中 间 层 各 单元 的 输入 输出 


计算 输出 层 各 单元 的 输入 输出 
1 

计算 输出 层 各 单元 的 一 般 化 误差 

1 

计算 中 间 层 各 单元 的 一 般 化 误差 


1 
调整 中 间 层 -输出 层 的 连接 权 及 输出 层 各 单元 
的 输出 阔 值 
1 
调整 输入 层 -中 间 层 的 连接 权 及 中 间 层 各 单元 
的 输出 阔 值 
一 一 一 一 
更 新 学 习 输 入 模式 


全 部 模式 训练 完 


更 新 学 习 次 数 | 


误差 < 设 定 最 小 误差 值 或 学 习 次 数 > 
设 定 最 大 学 习 次 数 


图 4.19 BP 算法 流程 图 


3. 实例 分 析 
1) 用 BP 网 络 优化 函数 


假定 用 BP 网 络 逼 近 函 数 : f(x)=1+sin( Fx) ;— 2< X2. 


BP 网 络 的 激励 函数 有 许多 形式 ,需要 多 次 尝试 选取 较 优 的 函数 。 经 过 比较 ,发 现在 
BP 网 络 中 , 隐 含 层 采 用 Sigmoid 函数 (S 型 函数 ) ,输出 层 采 用 线性 函数 效果 很 好 。 因 此 , 隐 
含 层 与 输入 层 之 间 采 用 式 (4.73) 的 S 型 函数 作为 激励 函数 ,zx 为 隐 含 层 的 净 输 入 ,4 为 陡 度 
因子 , 设 4=1, 只 在 训练 进入 “ 假 饱 和 ”时 调用 对 4 的 计算 过 程 。 输 出 层 与 隐 含 层 之 间 采 用 

式 (4.74) 的 线性 函数 ,为 了 更 简单 起 见 , 本 算 例 取 4a==1,6 二 0。 
= (4.73) 

1l+er 
y=art+b (4, 74) 
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在 开始 BP 算法 前 ,需要 选择 网 络 权 值 和 偏 置 值 的 初始 值 。 通 常 选择 较 小 的 随机 值 , 这 


里 选择 的 值 如 下 所 示 : 
eras... Pee in, [一 0.48 

WW [onl as [e a 

W?(0) = [0.09 —0.17], 6(0) = [0. 48] 

神经 网 络 的 训练 集 可 以 通过 计算 函数 在 几 个 点 的 函数 值 来 得 到 。 现 在 开始 执行 算法 ， 


对 初始 输入 ,选择 x 二 1, 即 a 二 x 二 1。 
oo aff 0-27 —0.48])  ,/[—0.75 
on ee to = e| a +E] [s 
1 


1e” T [e nl 
1 0. 368 


Treo 
第 二 层 的 输出 为 : 
a= fW alt+s?) = Pico 09 一 0. 7][ sea lt E; 18)|= [0. 446] 


误差 将 为 : 
a {1+sin(T2)|—o# = {1+sin(7 x 1) }—o. 446 = 1,261 


下 一 阶段 是 反 向 传播 算法 。 在 反 向 传播 算法 开始 前 ,需要 首先 计算 传输 函数 的 导数 


FEDA f? n). 


对 第 一 层 ， 
1 
; ý 1 + e™” e” 1 1 
1 = —— = — = 一 一 一 — |= =g 7 
Fn) an +e") (= O 
对 第 二 层 : 
Pw) = 2 = 
下 面 可 以 执行 反 向 传播 算法 了 。 起 始点 在 第 二 层 。 由 式 (4. 69) 得 : 
M =— 2FM (nM)(t— a) (4. 75) 
s” = Fr (n”) (W) Tgr (4. 76) 
$ =— 2F m) a — a) =— 20 f(r?) C1. 261) =— 2011. 261) 
=— 2,522 
第 一 层 的 敏感 性 由 第 二 层 的 敏感 性 反 向 传播 得 到 ,由 式 (4.70) 得 : 
r (—al)(a!) 0 0. 09 
so =P On) (w®)Ts? = | ee I t- 2.522) 
0 (1—a})(a})JL— 0.17 
(1 — 0. 321) (0. 321) 0 0.09 
引 I |. 522] 
0 (1 一 0.368)(0.368) JL—0. 17 


# Tlos 


0.218 0 一 0.227] Ff—0.0495 
-[; 0. gall 0. 129)" [ 0. | 
算法 的 最 后 阶段 时 更 新 权 值 。 为 了 简单 起 见 ,这 里 学 习 速 率 设 为 L, 二 0.1。 由 式 (4.71) 
和 (4.72) 得 : 
W) = W2(0) — L,s? Ca) = [0.09 —0.17]—0. 1[—0. 2522][0. 321 0.368] 
=[0.171 一 0.0772] 
8 (1) = #0) —L,s? = [0. 48] — 0. 1[—2. 522] = [0. 732] 


i — 027 — 0. 0495 — 0. 265 
WI) = WO = Esta")? = | Foal =| | 
— 0.41 0.0997 — 0. 420 


— 0.48 — 0. 0495 — 0.475 
i i ae a eel 0. a977 [oo] 

这 就 完成 了 BP 算法 的 第 一 次 迭代 。 下 一 步 可 以 选择 男 一 个 输入 xz, 执行 算法 的 第 二 次 
迭代 过 程 。 和 迭代 过 程 一 直 进 行 下 去 ,直到 网 络 响应 和 目标 函数 之 差 达 到 某 一 可 以 接受 的 
KF: 

2) 应 用 BP 神经 网 络 预测 交通 客运 量 

(1) 网 络 结构 的 确定 包括 输入 节点 数 、 隐 含 层 节点 数 、 输 出 节点 数 以 及 隐 含 层 和 输出 层 
的 传递 函数 。 由 Kolmogorov 定理 指出 一 个 三 层 人 工 神 经 网 络 能 够 模拟 任何 连续 函数 ,对 
于 复杂 的 非 线 性 函数 ,三 层 网 络 的 拟 合 效 果 和 收敛 速度 明显 优 于 四 层 或 更 多 层 结构 的 
ANN。 所 以 本 文 也 选择 只 有 一 个 隐 含 层 的 前 馈 ANN 作为 预测 交通 运 量 的 网 络 结构 。 本 
算 例 通过 三 层 前 馈 神 经 网 络 实现 对 交通 运 量 预测 。 选 定 输入 层 四 个 节点 ; 城市 人 口 数 , 城 
市 旅游 人 口 数 、 本 市 的 GDP 和 城市 第 三 产业 产值 。 由 于 网 络 对 隐 含 层 的 神经 元 数目 很 敏 
感 ,神经 元 太 少 网 络 很 难 适 应 , 太 多 又 可 能 设计 出 超 适 应 的 网 络 。 一 般若 输入 层 节点 数 为 
2 ,可 以 对 隐 含 层 节点 数 在 2n 十 1 左右 范围 测试 ,最 终 确定 一 个 较 好 的 隐 含 层 节点 数 。 输 出 
层 为 一 个 节点 , 即 某 市 的 公路 客运 量 。 传 递 函 数 : 输入 层 一 隐 含 层 使 用 双 曲 正切 Sigmoid 
传递 函数 ; 隐 含 层 一 输出 层 使 用 线性 传递 函数 。 

(2) 设置 参数 进行 网 络 训 练 ,包括 选 定期 望 误差 最 小 值 . 最 大 循环 次 数 、 学 习 速 率 等 相 
关 参 数 。 本 实例 中 设置 期 望 误差 最 小 值 (err_goal) 等 于 0. 01; 设 定 最 大 循环 次 数 (max_ 
epoch) 等 于 20 000; 设 置 修正 权 值 和 羡 值 的 学 习 速 率 L, (Learning rate) 一 0. 15。 

(3) 对 输入 一 输出 数据 样本 对 进行 标准 化 处 理 后 ,进行 网 络 训练 ,如 图 4. 20 所 示 , 经 过 
89 次 训练 ,网 络 误差 达到 0. 009 895 67, 小 于 0.01, 网 络 训 练 停止 ,建立 BP 神经 网 络 模型 可 
以 用 来 交通 运 量 预测 。 

(4) BP 神经 网 络 预测 模型 拟 合 结果 的 对 比分 析 。 建 立 的 BP 神经 网 络 预测 模型 对 交通 
运输 量 实际 值 的 拟 合 效果 如 图 4. 21 所 示 。 为 了 说 明基 于 ANN 的 交通 运 量 预测 模型 方法 
的 有 效 性 ,采用 同样 的 一 组 数据 ,相同 的 解释 变量 ,本 文 将 使 用 多 元 线性 回归 预测 方法 做 出 
比较 分 析 。 因 此 采用 城市 人 口 数 ,城市 旅游 人 口 数 .本 市 的 GDP 和 城市 第 三 产业 产值 作为 
自 变量 ,得 到 多 元 线性 回归 模型 : Y= — 16. 73 X Xi 十 12. 52X X, 十 1. 89 X, 十 0. 84 XX 
CR’ =0. 999 796, F=8565. 311). BP 神经 网 络 预 测 模型 与 多 元 线性 回归 预测 模型 的 误差 对 
比分 析 , 如 表 4. 22 所 示 。 
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图 4.20 神经 网 络 训 练 图 图 4.21 BP 神经 网 络 预测 模型 拟 合 结果 
表 4.22 ANN 与 多 元 线性 回归 预测 模型 对 公路 客运 量 预测 精度 的 对 比分 析 
TER 神经 网 络 | HAMA | Sm | 多 元 回归 预测 
年 份 公路 客运 ml sci 
预测 模型 模型 误差 /% 预测 模型 模型 误差 /% 
1992 6999 7024 6969 0. 42 
1993 7311 7239 7182 1.77 
1994 7376 7468 7624 3. 36 
1995 7867 7902 7922 0.7 
1996 8191 8262 8104 1.07 
1997 8453 8339 8288 1.96 
1998 8594 8652 8547 0.55 
1999 8595 8640 8655 0.7 
2000 8766 8840 8849 0. 95 
2001 8930 8999 9017 0. 98 
2002 9475 9577 9348 1.35 


由 表 4. 22 可 以 得 到 结论 , 相 比 多 元 线性 回归 预测 模型 ,基于 ANN 的 交通 运 量 预测 模 
型 的 预测 精确 性 较 高 。 

(5) 利用 交通 运 量 预测 的 神经 网 络 模 型 进行 预测 分 析 。 应 用 神经 网 络 模 型 对 该 城市 
2004 年 公路 客运 量 做 出 预测 ,与 该 市 统计 年 鉴 公布 的 数据 十 分 相近 。 同 时 ,利用 这 个 模型 
可 以 得 到 今后 几 年 的 客运 量 预测 值 ,如 应 用 该 模型 分 析出 该 城市 2005 年 将 比 2004 年 的 公 
路 客运 量 增长 5. 3% 左 右 。 

3) 神经 网 络 在 库存 预测 中 的 应 用 

对 于 物流 企业 来 说 ,节约 成 本 的 最 好 方法 就 是 更 加 充分 利用 仓库 ,让 有 限 的 仓库 最 大 限 
度 地 发 挥 。 如 果 能 够 掌握 各 个 客户 的 进出 库 规律 ,预测 出 客户 未 来 几 天 的 进出 库 数 量 , 就 能 
够 避 开 客户 的 仓库 使 用 高 峰 , 制 定 合理 的 进出 库 方案 ,优化 各 种 资源 。 

在 此 选用 的 是 某 第 三 方 物流 中 心 的 仓库 的 库存 量 数据 ,预测 每 天 的 进出 库 数量 。 利 用 
第 三 方 物流 中 心 仓库 的 “出 库 单 ” 记 录 中 所 有 的 历史 出 库 记 录 。 样 本 数据 共 包 括 从 2004 年 
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3 月 2 日 到 2004 年 6 月 25 日 的 所 有 出 库 记 录 。 原 始 出 库 单 记录 方式 如 表 4. 23 所 示 。 
表 4.23 某 仓 库 的 部 分 出 库 记 录 数 据 表 

出 库 单 号 货品 代码 数量 / 箱 出 库 单 号 货品 代码 数量 / 箱 
2004030201 0125 10.1 2004030201 1102 160 
2004030201 3387 20 2004030201 3936 36 
2004030202 2151 11 2004030202 3387 22 
2004030203 3130 33. 25 2004030204 3130 77.2 
2004030204 3292 11 2004030205 3292 44 
2004030206 1102 25 2004030207 3360 41 


以 上 就 是 2004 年 3 月 部 分 出 库 单 记录 。 在 该 模型 中 需要 预测 的 是 未 来 几 天 的 出 库 数 
量 , 所 以 样本 数据 的 行 应 该 是 某 个 日 期 各 个 货品 的 出 库 数量 。 为 此 , 需 对 样本 数据 进行 预 处 
理 , 对 样本 数据 的 表现 形式 作 一 个 转换 。 为 此 ,转换 后 的 数据 格式 如 表 4. 24 所 示 。 
表 4.24 数据 转换 后 的 数据 格式 


本 例 选取 了 货品 代码 为 3221 来 做 库存 预测 ,其 他 货品 的 预测 与 此 相 类 似 。 该 预测 模型 


类 似 于 一 个 时 间 序列 预测 。 通 过 前 一 段 时 间 的 出 库 数量 来 预测 未 来 几 天 的 出 库 ,其 模型 相 
SF 


(N — nDiv, N — (n — 1)Div, + , N — Div, N)=>N + Div (4. 77) 
其 中 Div 为 样本 数据 取样 间隔 ,” 为 间隔 数 。 
在 本 模型 中 ,商品 生产 企业 在 每 一 个 月 都 有 一 个 结算 日 ,在 结算 日 前 后 ,都 会 以 优惠 的 
价格 来 冲击 市 场 ,扩大 销售 额度 。 所 以 ,在 该 模型 中 zDiv 盖 30。 为 此 , 取 Div=10,n=3, B 
(N-2X10,N—1X10,N)>N+10 (4. 78) 
这 里 的 N 一 工 代 表 工 天 以 前 的 出 库 数 量 , N 十 I 代表 预测 出 的 第 IT 天 以 后 的 出 库 数 量 。 
依据 该 标准 ,样本 数据 需 重 组 为 (ON 一 2X10,N 一 1X10,N,N+10) 。 
按照 上 述 方法 对 样本 数据 处 理 ,形成 神经 网 络 的 挖掘 样本 一 共有 95 条。 为 了 验证 神经 
网 络 的 有 效 性 ,为 此 将 样本 划分 为 训练 样本 (80 条 记录 ) 和 测试 样本 (15 条 记录 ) ,训练 样本 
用 于 训练 神经 网 络 ,测试 样本 用 于 验证 神经 网 络 模型 的 有 效 性 。 
样本 数据 的 大 小 范围 对 神经 网 络 训练 的 效果 有 着 明显 的 影响 ,实践 证 明 ,样本 数据 都 集 
中 在 [0,1] 时 能 够 达到 很 好 的 收敛 效果 ,为 此 ,可 将 样本 数据 进行 缩放 ,让 样本 数据 的 数值 都 
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限定 在 L0,1] 之 间 。 对 所 有 的 样本 数据 都 除 以 10 000, 在 网 络 仿真 中 ,对 网 络 输出 乘 以 
10 000 即 可 恢复 原始 输出 。 

神经 网 络 在 理论 上 可 以 逼近 任意 的 函数 ,但 是 该 函数 的 逼近 需要 不 断 地 修改 网 络 结构 
和 学 习 参 数 。 网 络 结果 包括 网 络 输入 参数 .输出 参数 、 隐 含 层 神经 元 个 数 、 隐 含 层 .输出 层 函 
数 。 学 习 参 数 包括 学 习 速 率 、 训 练 次 数 、 训 练 精度 。 通 过 不 断 地 修改 网 络 结构 和 参数 ,用 测 
试 集 来 评价 网 络 训练 效果 ,最 后 确定 的 参数 如 下 : 


输入 元 素 个 数 输出 元 素 个 数 1 

隐 含 层 神经 元 个 数 隐 含 层 传递 函数 Tansig 
输出 层 传递 函数 Tansig 学 习 速 率 0. 2 
训练 次 数 10 000 训练 精度 0. 000 001 


网 络 的 最 后 收敛 效果 如 图 4. 22 所 示 。 在 图 4. 23 和 图 4. 24 所 示 的 网 络 仿真 和 仿真 误 
差分 析 中 ,前 80 条 为 训练 样本 的 仿真 ,后 15 条 为 测试 样本 的 仿真 ,从 以 上 的 仿真 效果 分 析 
来 看 ,该 神经 网 络 模型 能 够 有 效 地 预测 出 货运 量 , 误 差 精度 在 一 个 可 以 接受 的 范围 内 ,是 一 
个 有 效 的 货运 预测 分 析 方法 。 


Performance is 3.00482e-010. Goal is 1e-010 
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图 4.22 网 络 的 最 后 收敛 效果 


i [= ei 
二 -| 一 预测 输 


图 4.23 神经 网 络 最 后 的 拟 合 效 果 
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图 4.24 神经 网 络 训 练 误差 


4.6 马尔 可 夫 预 测 模型 


马尔 可 夫 (1856 一 1922) 是 俄国 著名 数学 家 。 马 尔 可 夫 预 测 法 是 现代 预测 方法 中 的 一 
种 ,具有 和 较 高 的 科学 性 、 准 确 性 和 适应 性 ,广泛 应 用 在 自然 科学 和 经 济 管理 领域 。 马 尔 可 夫 
预测 模型 是 将 时 间 序 列 看 作 一 个 过 程 ,通过 对 事物 不 同 状态 的 初始 概率 与 状态 之 间 转 移 概 
率 的 研究 ,确定 状态 变化 趋势 ,预测 事物 的 未 来 。 当 我 们 需要 知道 一 个 事物 (如 市 场 占有 率 ， 
nt oh 段 时 间 后 的 未 来 状态 ,或 由 一 种 状态 转移 到 另 一 种 状态 的 概率 时 就 可 以 

用 马尔 可 夫 预 测 模型 。 


马尔 可 夫 预 测 方法 数学 模型 
1) ) 适用 的 条 件 
转移 概率 矩阵 逐 期 不 变 ; 状 态 个 数 保持 不 变 ;状态 的 转移 只 受 前 一 期 的 影响 ,而 与 前 一 
期 以 前 的 状态 无 关 。 
2) 转移 概率 矩阵 模型 
若 系 统 状 态 的 变化 可 能 产生 的 状态 数 有 A& 个 , 即 系统 状态 有 Si,S;,…,S:。 系 统 现在 
处 于 S: 状态 ,下 一 步 转移 到 Si 状态 的 条 件 概率 记 为 如 内 ， 出 素 奖 杰 总 的 转移 情况 可 图 以 
下 的 矩阵 表示 : 
Pus Piz*** Pik 
ap = [Paton 


a Prz *** Pex 
HAWE >)ps = pa + pe H+ pa = 1G = 1,20 k) 
根据 本 期 和 转移 状态 ,可 以 预测 下 期 情况 或 下 几 期 的 情况 : 设 事物 的 前 状态 为 SCz 一 1)， 
后 状态 为 SCz) ,转移 状态 抢 阵 为 卫 , 则 三 者 的 关系 为 SO) 王 SCz 一 1)。 了 。 计 算 矩 阵 的 平衡 
状态 : 只 要 转移 矩阵 不 变 , 不 管 占 有 率 如 何 改变 ,系统 最 后 总 会 达到 平衡 状态 (稳定 状态 )， 


即 S(n) + P=S(). 
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2. 马尔 可 夫 预 测 方法 应 用 实例 

1) 应 用 马尔 可 夫 模 型 进行 运输 市 场 占 有 率 预 测 

运输 市 场 占 有 率 主要 是 指 运输 企业 运输 某 种 货物 量 占 该 市 场 同 种 货物 总 量 的 百分比 。 
应 用 马尔 可 夫 模 型 预测 运输 市 场 占有 率 与 稳定 后 的 市 场 占有 率 。 

假设 现 有 甲乙 . 丙 三 家 运输 公司 运输 同一 种 货物 ,假定 该 种 货物 的 总 运 量 不 变 , 均 为 
6000 吨 。 第 一 期 甲 公司 运 量 为 2700 吨 , 乙 公司 运 量 为 2100 吨 , 丙 公司 运 量 1200 吨 ,第 二 
期 三 家 公司 该 种 货物 运 量 的 变化 情况 列 成 统计 表 如 表 4. 25 所 示 。 
表 4.25 第 二 期 三 家 公司 该 种 货物 运 量 的 变化 情况 

第 二 期 运 量变 动情 况 


公司 名 称 四 丙 | 总 计 
甲 1500 1000 | 2700 
乙 200 2100 
两 50 1200 


第 一 步 : 求 出 初始 状态 概率 向 量 。 用 a (0) 、as (0) .as (0) 分 别 表示 甲 、 乙 NA 
状态 概率 ,有 a (0) =2700/6000=0. 45,az (0) =2100/6000=0. 35,a; (0) =1200/6000=0. 20, 
第 二 步 : 计算 一 次 转移 概率 ,并 用 转移 矩阵 p 表示 : 
1500 200 1000 
2700 2700 2700 


_| 200 1600 300 
P— 12100 2100 2100 


50 50 1100 
1200 1200 1200 


第 三 步 : 根据 初始 状态 概率 向 量 和 转移 矩阵 ,对 以 后 各 期 的 市 场 占有 率 情 况 作 分 析 预 
测 。 第 二 期 的 市 场 占有 率 预 测 为 : 


一 |0.10 0.76 0.14 
0.04 0.04 0.92 


0.56 0.07 0. | 


0. 56,0. 07,0. 37 
0.10.0. 76,0. 14 
0. 04,0. 04,0. 92 
以 后 各 期 的 市 场 占 有 率 就 以 前 一 期 所 得 的 状态 概率 向 量 与 转移 矩阵 相 乘 得 到 。 

第 四 步 : 稳定 状态 下 的 市 场 占有 率 分 析 。 

从 上 面 的 计算 结果 看 ,如 果 三 家 公司 无 大 的 竞争 措施 出 台 ,市 场 占 有 率 将 逐渐 趋 于 稳 
定 , 这 种 现象 称 为 市 场 占有 率 平衡 状态 。 这 是 由 于 市 场 占有 率 经 过 多 次 转移 概率 变化 ,其 变 
化 幅度 逐渐 减 小 的 结果 。 
0.56 0.07 0.37 
(a, .@2,a3)}0.10 0.76 0.14 
0.04 0.04 0.92 
场 占有 率 为 10.3%, 乙 公司 为 15.4%, 丙 公司 为 74.3%。 

第 五 步 : 采取 措施 改变 状态 转移 矩阵 来 改变 企业 的 市 场 占有 率 。 
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a = (0. 45,0. 35,0. 20) = (0. 294,0. 306,0. 400) 


= (ay ,oa ,as) 求 解 得 到 市 场 平 衡 状 态 下 , 甲 公司 的 市 


甲乙 两 公司 应 意识 到 自己 的 市 场 占有 率 在 逐渐 减 小 ,为 了 提高 经 济 效益 和 竞争 能 力 扭 
转 不 利 局 面 ,甲乙 两 公司 需 积 极 寻 求 新 的 突破 点 ,扩大 市 场 占有 率 。 

假设 甲乙 两 公司 分 别 从 丙 公 司 赢得 20% 和 15% 的 市 场 占有 率 , 则 新 的 状态 转移 概率 

0.56 0.07 0.37 
为 10.10 0.76 0.14| 从 该 状态 转移 概率 矩阵 计算 得 稳定 状态 下 的 市 场 占有 率 : 甲 公司 为 

0.20 0.15 0.65 
26.1%, 乙 公司 为 33.2%, 丙 公司 为 40.7%。 表 明 甲 . 乙 公 司 的 市 场 占有 状况 有 了 一 定 程度 
j 

马尔 可 夫 模 型 进行 客运 市 场 占 有 率 状 态 预 测 

eee. 如 
K 4. 26 所 示 ,2006 年 某 省 客运 量 总 量 为 43 844 万 人 ,铁路 .公路 水运 和 航空 的 客运 量 分 别 
为 1680 .41 101、535、528, 计 算得 四 种 运输 方式 的 初期 占有 率 Po = (0. 038,0. 937,0. 012, 
0.012) ,其 中 公路 客运 量 占 客运 量 总 量 的 93.74% ,可 见 在 该 省 的 客运 市 场 上 ,公路 运输 是 
占据 主导 地 位 的 运输 方式 ， 因此 科学 地 进行 公路 客运 量 和 周转 量 预测 是 十 分 必要 的 。 


表 4.26 某 省 客运 市 场 运输 方式 初期 占有 率 (2006 年 ) 


运行 程序 中 的 马尔 可 夫 预 测 方法 ,得 到 运行 界面 如 图 4.25 所 示 。 


Wl 马尔 可 夫 状 态 预 测 


原始 数据 矩阵 
运输 方式 WAS 铁路 公路 水 路 


预测 日 期 t= |5 预测 铁路 | 0.038316 0.027121 0.007442 0.00071 

公路 0.937438 0.014054 0.921580 0.00120 
水 路 0.012196 0.000502 0.001021 0.01026 
第 t 期 后 的 状态 R= 0.012050 0.000290 0.001920 0, 00023 


(ee o 
(0. 0485, 0, 9188, 0. 0136, 0. 0192) 


s 


状态 转移 矩阵 


铁路 公路 
0.0510 0.9069 
0.0510 0.9071 


m_m 0. 0510 0. 9065 
(0.0510, 0. 9071, 0. 0164, 0. 0256) = 0.0510 0.9069 


BE ®) 返回 主 窗口 @) 系统 帮助 W 退出 系统 多) 


图 4.25 马尔 可 夫 状 态 预 测 运 行 界面 
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通过 计算 ,可 以 得 出 第 1 期 后 的 客运 市 场 占有 率 和 状态 转移 矩阵 ,图 4. 25 中 显示 的 是 
第 5 期 (2011 年 ) 客 运 市 场 四 种 运输 方式 铁路 公路、 水 路 和 航空 的 市 场 占有 率 ,分 别 为 
4. 85% 91. 88%、1.36% 和 1.92%。 根 据 马 尔 可 夫 模 型 , 当 状 态 转 移 进行 到 一 定 阶段 就 会 
达到 稳 态 ,在 本 例 中 ,稳定 状态 值 为 (0. 0510 ,0. 9071,0.0164,0.0256)。 


4.7 小 结 


本 章 重 点 研究 了 预测 模型 研究 与 应 用 ,对 于 预测 理论 与 算法 进行 了 广泛 而 具体 的 研究 ， 
包括 预测 方法 的 分 类 、 预 测 的 步骤 。 在 具体 应 用 中 ,阐述 了 多 种 预测 方法 ,包括 回归 分 析 法 、 
趋势 外 推 法 .时 间 序 列 预测 和 马尔 可 夫 预 测 ,同时 对 多 种 预测 算法 的 预测 结果 选择 和 预测 效 
果 的 评价 。 在 实际 应 用 中 ,要 根据 样本 的 数据 特征 和 需要 预测 的 期 限 来 决定 使 用 何 种 模型 
或 组 合 使 用 某 些 模型 。 同 时 将 定量 与 定性 分 析 相 结合 ,才能 得 到 较为 完整 的 趋势 分 析 ,提高 
辅助 决策 支持 的 能 力 。 


. 阐述 预测 方法 的 分 类 。 

. 描述 预测 的 一 般 步 又 。 

. 掌握 一 元 线性 回归 预测 方法 。 

. 掌握 多 元 线性 回归 预测 方法 。 

. 解释 非 线 性 回归 预测 方法 。 

. 叙述 趋势 外 推 预测 方法 包含 哪些 模型 。 
. 掌握 皮尔 (Pearl) 预测 模型 。 

. PEE (Gompertz) HAMPER 。 
. 掌握 林 德 诺 (Ridenour) 预测 模型 。 
. 掌握 移动 平均 预测 方法 。 

. 擎 握 指数 平滑 预测 方法 。 

. 掌握 季节 指数 预测 方法 。 

. 描述 马尔 可 夫 预 测 过 程 。 
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Apriori 关联 规则 算法 的 相关 概念 和 计算 流程 。 提 出 一 种 改进 的 Apriori 关联 规则 方法 。 最 
后 给 出 Apriori 关联 规则 方法 的 实例 。 


5.1 关联 规则 的 基础 理论 


5.1.1 关联 规则 的 定义 与 解释 


关联 规则 (Association Rules) 是 指 在 大 型 的 数据 库 系统 中 ,迅速 找 出 各 事物 之 间 潜 在 
的 、 有 价值 的 关联 ,用 规则 表示 出 来 ,经 过 推理 积累 形成 知识 后 ,得 出 重要 的 相关 联 的 结论 ， 
从 而 为 当前 市 场 经 济 提供 准确 的 决策 手段 。 

关联 规则 的 应 用 已 经 比较 广泛 ,如 条 形 码 的 应 用 已 使 大 型 零售 商品 的 组 织 问题 成 为 现 
实 , 从 决策 领域 到 通信 报警 系统 的 应 用 ,以 及 诊断 和 预测 等 相关 领域 。 

(1) 在 主题 数据 库 ( 销 售 分 析 库 ) 中 ,可 以 对 所 有 销售 的 物品 、 价 格 、 数 量 、 时 间 ( 季 节 )、 
地 区 等 相关 因素 进行 分 析 , 利 用 关联 规则 来 发 现 它们 之 间 的 联系 ,决定 如 何 进 货 以 及 物品 在 
货架 的 摆 放 形式 等 。 

(2) 如 果 当 前 的 主题 是 贷款 客户 的 相关 信息 ,那么 利用 关联 规则 算法 ,可 以 找 出 贷款 与 

= 品 、 贷 款 与 库存 、 贷 款 与 利润 、 贷 款 与 收入 .贷款 与 贷款 人 等 之 间 的 关联 ,从 而 分 析 会 存在 
风险 的 贷款 情况 的 关联 因素 ,根据 这 些 规则 决定 是 否 给 客户 发 放贷 款 。 

如 果 当 前 主题 库 是 某 类 疾病 的 患者 数据 库 ,那么 可 以 根据 每 个 患者 发 病史 、 病 状 、 饮 食 
习惯 居住 区 .工作 脾气、 性格 及 环境 等 因素 , 找 出 它们 之 间 共 同 的 潜在 的 联系 ,可 以 做 出 
预防 某 种 疾病 的 措施 。 

关联 规则 的 研究 和 应 用 是 数据 挖掘 中 最 活跃 和 比较 深入 的 分 支 ,目前 ,已 经 提出 了 许多 
关联 规则 挖掘 的 理论 和 算法 。 最 为 著名 的 是 R. Agrawal 等 提出 的 Apriori 及 其 改进 算法 。 
为 了 发 现 有 意义 的 关联 规则 ,需要 给 定 两 个 国 值 : 最 小 支持 度 (Minimum Support) 和 最 小 
nj fA Minimum Confidence) 。 挖 掘 出 的 关联 规则 必须 满足 用 户 规定 的 最 小 支持 度 , 它 表 
示 了 一 组 项 目 关 联 在 一 起 需要 满足 的 最 低 联系 程度 。 挖 掘 出 的 关联 规则 也 必须 满足 用 户 规 
定 的 最 小 可 信和 度 , 它 反映 了 一 个 关联 规则 的 最 低 可 靠 度 。 在 这 个 意义 上 ,数据 挖掘 系统 的 目 
的 就 是 从 数据 库 中 挖掘 出 满足 最 小 支持 度 和 最 小 可 信和 度 的 关联 规则 。 


5.1.2 关联 规则 在 知识 管理 过 程 中 的 作用 


知识 管理 是 一 个 过 程 ,通过 这 一 过 程 可 以 学 习 新 知识 和 获得 新 经 验 ,并 将 这 些 新 知识 和 
新 经 验 反 映 出 来 ,进行 共享 ,以 用 来 促进 .增强 个 人 的 知识 和 机 构 组 织 的 价值 。 如 果 我 们 将 
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数据 管理 中 的 数据 提取 作为 数据 仓库 的 低层 管理 过 程 ,那么 数据 库 知 识 发 现 (Knowledge 
Discovery in Databases, KDD) 的 过 程 则 可 作为 数据 仓库 的 高 层 管理 的 过 程 ,而 关联 规则 又 
作为 数据 仓库 的 主要 内 容 出 台 , 所 以 关联 规则 作为 知识 管理 过 程 的 重要 内 容 ,具体 的 知识 管 
理 过 程 如 图 5. 1 所 示 。 


[一 将 名 平台 Wi 

一 eima 6D ae 

一 | 一个 公共 | Lee Mepa 

一 | 的 平台 上 知识 集成 
知识 推理 


可 利用 一 | 
的 DB 


g g 
数据 管理 上 一 让 ”信息 管理 Y agm Plaine 


图 5.1 知识 管理 过 程 及 其 发 展 


[| 


知识 管理 的 基础 内 容 包括 从 系统 继承 过 来 的 模型 与 知识 。 在 未 来 的 发 展 趋 势 中 ,也 可 
以 根据 模型 的 集成 进行 模型 的 推理 、 知 识 的 推理 等 推导 过 程 来 产生 规则 和 获得 知识 。 这 个 
阶段 产生 的 规则 应 该 是 信息 集成 后 的 规则 。 如 果 在 KDD 过 程 中 的 一 条 通用 的 规则 是 : IF 
表达 式 ( 前 件 )THEN 动作 (后 件 ){ 其 中 : 前 件 作 为 表达 式 的 概念 ,后 件 作 为 满足 表达 式 的 
人 逻辑 状态 所 产生 的 动作 } ,那么 在 这 个 阶段 的 规则 形式 可 以 写成 : IF 有 用 的 模型 THEN R 
成 与 提炼 新 的 模型 ;或 者 IF 有 用 的 知识 THEN 集成 与 提炼 新 的 知识 。 当 然 , 知 识 集成 是 按 
照 新 的 、 更 高 更 复杂 的 问题 需求 而 集成 的 。 这 个 阶段 的 基础 应 该 是 KDD 处 理 后 的 结果 ,也 
就 是 说 KDD 作为 知识 集成 阶段 的 基础 。 因 此 ,知识 管理 是 以 DBS 为 基础 ,应 用 多 种 知识 发 
现 和 决策 支持 理论 与 技术 方法 。 而 模型 的 挖掘 与 知识 的 挖掘 、 模 型 的 集成 与 知识 的 集成 阶 
段 将 是 知识 管理 的 未 来 发 展 趋势 。 
如 果 只 利用 简单 的 统计 与 分 析 方法 寻找 事物 


i 间 的 关联 ,可 能 只 看 到 外 部 事物 间 的 关联 ,而 无 法 

| |， [TEN | 找到 事物 内 部 间 的 关联 。 关 联 规则 在 大 型 的 数据 
| 库 系统 中 为 我 们 提供 了 各 属性 (项 ) 之 间 的 潜在 

快速 发 现 相关 规则 | “的 \ 有 价值 的 联系 ,使 用 关联 规则 也 能 找 出 其 他 主 

i 题 的 大 型 数据 库 中 的 各 属性 之 间 的 潜在 的 间接 的 

oe | 关联 .这 对 于 分 析 各 类 事物 将 要 导致 其 他 的 潜在 

知 知识 的 产生 与 发 现 ] | 知 的 发 展 趋势 是 十 分 重要 的 。 在 KDD 中 利用 关联 
i i UES ”规则 算法 解决 这 一 类 问题 是 目前 挖掘 潜在 的 相关 
i ioi 理 ” 联 的 各 事物 间 关系 较 好 的 方法 。 关 联 规则 在 知识 
ack oe 管理 中 起 着 一 种 桥梁 的 作用 ,如 图 5. 2 所 示 , 在 数 


据 仓 库 系统 中 属于 数据 挖 气 和 DSS 的 技术 。 换 
FAS. 2 关联 入 风 在 知识 管理 中 的 新 梁 作 用 向 话说 ,数据 挖掘 的 结果 会 产生 许多 有 价值 的 模 
2 120% 


型 ,在 数据 挖掘 过 程 中 能 根据 不 同 的 主题 发 现 不 同 的 模式 ,而 这 些 模式 可 以 是 一 个 表达 式 、 
个 过 程 .一 个 规则 ,一 条 有 意义 的 信息 、 继 承 过 来 的 知识 等 。 


5.2 Apriori 关联 规则 算法 


5.2.1 关联 规则 算法 的 相关 概念 
下 面 简要 介绍 关联 规则 的 相关 概念 。 


1. 项 集 或 候选 项 集 

项 集 Item= {Iteml Item, ,… ，Item };TR 是 事物 的 集合 ;TRCItem, 并 且 TR 是 一 个 
{0,1} 属 性 的 集合 。 集 合 k_Item= {Item , Item, =, Item) PKJ k MERE k 项 候选 项 
集 。 假 设 DB 包含 m 个 属性 (A, B,…，M);1 WME 1_Item={{A}, {B} =, {M)), 共 有 
m 个 候选 项 集 ;2 ME 2 Item={{A, B}, {A, C},…,{A, M}, {B, C},.…, {B, M}, 
{C, DD},…，{L,，M}))}), 共 有 [mX(m 一 1)/2j 个 项 集 ;3 项 集 3_Item={{A, B, C}, {A, B, 
Djs As By Mys {As Cs Dys {As Cy. E} 505. {B, Co Dys {By Cy Eyyy (By C, 
M},…，{K, L M}} ;依次 类 推 ,m 项 集 m_Item={A. B，C,…，M) ,有 1 个 项 集 。 


2. 支持 度 

支持 度 support 简写 为 sup, 指 的 是 某 条 规则 的 前 件 或 后 件 对 应 的 支持 数 与 记录 总 数 的 
百分比 。 假 设 A 的 支持 度 是 sup(A),sup(A)= | {TR| TRA) |/|n|;A>B 的 支持 度 sup 
(A>B)=sup(AUB)=|{TR|TRDAUB}|/|n| $F n dé DB 中 的 总 的 记录 数目 。 


3。 可 信和 度 

可 信和 度 confidence 简写 为 conf ,规则 A>B 具有 可 信和 度 conf(A>B) xm DB 中 包含 A 
的 事物 同时 也 包含 B 的 百分比 ,是 AUB 的 支持 度 sup(AUEB) 与 前 件 A 的 支持 度 sup(A) 
的 百分比 : conf(A>B)=sup(A UB)/sup(A). 


4. 强项 集 和 非 频 繁 项 集 

UN HE k 项 候选 项 集 的 支持 度 大 于 等 于 所 设 定 的 最 小 支持 度 阔 值 , 则 称 该 & 项 候选 项 
集 为 & 项 强项 集 (Large k-itemset) 或 者 上 项 频繁 项 集 (Frequent k-itemset) 。 同 时 ,对 于 支 
持 度 小 于 最 小 支持 度 的 & 项 候选 项 集 称 为 &A 项 非 频繁 项 集 。 

定理 (频繁 项 集 的 反 单 调 性 ): 设 A、B 是 数据 集 DB 中 的 项 集 , 若 A 包含 B, 则 A 的 支 
持 度 大 于 B 的 支持 度 ; 若 A 包含 于 B, 且 A 是 非 频 繁 项 集 , 则 B 也 是 非 频繁 项 集 ; 若 A 包含 
于 B, 且 B 是 频繁 项 集 , 则 A 也 是 频繁 项 集 。 


5. 产生 关联 规则 

EAB 为 项 集 ,ACItem,BCItem 并 且 A 站 B= 人 ,一 个 关联 规则 是 形 如 A 过 B 的 蕴涵 
式 。 当 前 关联 规则 算法 普遍 基于 Support-Confidence 模型 。 支 持 度 是 项 集中 包含 A 和 
B 的 记录 数 与 所 有 记录 数 之 比 ,描述 了 A 和 B 这 两 个 物品 集 的 并 集 C 在 所 有 的 事务 中 出 现 
的 概率 有 多 大 ,能 够 说 明 规则 的 有 用 性 。 规 则 ASB 在 项 集中 的 可 信 度 ,是 指 在 出 现 了 物品 
集 A 的 事务 T 中 ,物品 集 B 也 同时 出 现 的 概率 有 多 大 ,能 够 说 明 规 则 的 确定 性 。 产 生 关 联 
规则 , 即 从 强项 集中 产生 关联 规则 。 在 最 小 可 信 度 的 条 件 门槛 下 , 若 强项 集 的 可 信 度 满足 最 
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小 可 信 度 , 称 此 & 项 强项 集 为 关联 规则 。 例 如 : A.B} 2 项 强项 集 , 同 时 conf(A>B) KF 
等 于 最 小 可 信和 度 , 即 sup(A U B) >min_sup H conf(A>B)>min_conf, MP ASB 为 关联 
规则 。 


5.2.2 关联 规则 算法 的 流程 


R. Agrawal 等 人 在 1993 年 设计 了 一 个 Apriori 算法 ,这 是 一 种 最 有 影响 力 的 挖掘 布尔 
关联 规则 频繁 项 集 的 算法 。 其 核心 是 基于 两 阶段 的 频 集 思想 的 递 推 算法 。 该 关联 规则 在 分 
类 上 属于 单 维 . 单 层 ,布尔 关联 规则 。 该 算法 将 关联 规则 挖掘 分 解 为 两 个 子 问题 ; 

(1) 找 出 存在 于 事务 数据 库 中 所 有 的 频繁 项 目 集 。 即 那些 支持 度 大 于 用 户 给 定 支 持 度 
BY (EL AY H E 

(2) 在 找 出 的 频繁 项 目 集 的 基础 上 产生 强 关联 规则 。 即 产生 那些 支持 度 和 可 信和 度 分 别 
大 于 或 等 于 用 户 给 定 的 支持 度 和 可 信 度 阔 值 的 关联 规则 。 

在 上 述 子 问题 中 ,(2) 相 对 容易 些 , 因 为 它 只 需要 在 已 经 找 出 的 频繁 项 目 集 的 基础 上 列 
出 所 有 可 能 的 关联 规则 ,同时 ,满足 支持 度 和 可 信 度 闵 值 要 求 的 规则 被 认为 是 有 趣 的 关联 规 
则 。 但 由 于 所 有 的 关联 规则 都 是 在 频繁 项 目 集 的 基础 上 产生 的 ,已 经 满足 了 支持 度 闽 值 的 
要 求 , 只 需要 考虑 可 信和 度 阔 值 的 要 求 , 只 有 那些 大 于 用 户 给 定 的 最 小 可 信 度 的 规则 才 被 留 下 
来 。 第 一 个 步骤 是 挖掘 关联 规则 的 关键 步骤 ,挖掘 关联 规则 的 总 体 性 能 由 第 一 个 步骤 决定 ， 
因此 ,所 有 挖掘 关联 规则 的 算法 都 是 着 重 于 研究 第 一 个 步骤 。 

Apriori 算法 在 寻找 频繁 项 集 时 ,利用 了 频繁 项 集 的 向 下 封闭 性 ( 反 单 调 性 ), 即 频繁 项 集 
的 子 集 必 须 是 频繁 项 集 , 采 用 逐 层 搜索 的 迭代 方法 ,由 候选 项 集 生 成 频繁 项 集 , 最 终 由 频繁 项 
集 得 到 关联 规则 ,这些 操 作 主 要 是 由 连接 和 剪 枝 来 完成 。 下 面 为 Apriori 算法 的 基本 流程 。 


Lı = {Large 1-itemsets} // 扫 描 所 有 事务 ,计算 每 项 出 现 次 数 ,产生 频繁 1- 项 集 集合 L 
for (k=2; Lei AO; k++) do // 进 行 和 迭代 循环 ,根据 前 一 次 的 Li 得 到 频繁 k- 项 集 集 合 Ly 
begin 
Cx '=join (Limp Lin) //join 对 每 两 个 有 k- 1 个 共同 项 目的 长 度 为 kx 的 模式 be 和 La 进行 连接 
C= prune (Cx ') //prune 根据 频繁 项 集 的 反 单调 性 ,对 cx ' 进 行 减 枝 ,得 到 Cy 
Ck=apriori- gen (Lx1) // 产 生 k 项 候选 项 集 C 
for all transactions t€ D do // 扫 描 数 据 库 一 遍 
begin 
Ce=subset (Cx ,t) // 确 定 每 个 事务 七 所 含 k- 候 选项 集 的 subset (Cr, t) 
for all candidates cE C, do 
c.count++ // 对 候选 项 集 的 计数 存放 在 hash KIP 
end 
L= {cE C, |c.count>min_sup} // 删 除 候选 项 集中 小 于 最 小 支持 度 的 ,得 到 k- 频 繁 项 集 LL 
end 
for all subset sCl, // 对 于 每 个 频繁 项 集 ,产生 Ly 的 所 有 非 空子 集 s 
If conf (s>L,-s)>=min_conf // 可 信和 度 大 于 最 小 可 信和 度 的 强项 集 为 关联 规则 
Then Output (S> L- S) // 由 频繁 项 集 产生 关联 规则 
end 
end // 得 到 所 有 的 关联 规则 
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Apriori 算法 最 大 的 问题 是 产生 大 量 的 候选 项 集 ,可 能 需要 频繁 重复 扫描 数据 库 , 因 此 
为 候选 项 集合 理 分 配 内 存 , 实 现 对 大 型 数据 库 系 统 快速 扫描 的 技术 和 方法 是 提高 管理 规则 
效率 的 重要 途径 ,面向 大 型 数据 库 , 从 海量 数据 中 高 效 提取 关联 规则 是 非常 重要 的 。 


5.3 改进 的 Apriori 关联 规则 方法 


本 节 介 绍 一 种 改进 A priori 关联 规则 算法 ,实现 对 大 型 数据 库 系 统 扫描 时 关联 规则 的 
快速 提取 ,采用 了 合理 分 配 内 存 的 方法 ,给 出 计算 长 度 & 的 强项 集 存储 分 配 公式 ,提出 了 由 
候选 集 快速 产生 强项 集 的 算法 ,提高 了 大 型 数据 库 产生 强项 集 的 效率 ,该 算法 与 现存 算法 相 
比 , 降 低 了 时 间 复 杂 度 ,同时 对 于 动态 存储 空间 的 分 配 有 更 强 的 准确 性 ,在 各 种 条 件 下 效率 
方面 优 于 Apriori 算法 。 


5.3.1 动态 存储 空间 的 构建 
为 了 充分 利用 空间 ,在 程序 设计 中 采用 了 合理 分 配 内存 的 方法 ,给 出 了 计算 长 度 & 的 强 


项 集 存储 分 配 公式 : 和 = Cp ,其 中 Cs RR k 项 候选 项 集 。 


这 个 公式 为 动态 :运行 机 制 开辟 了 准确 的 存储 空间 。 以 下 部 分 为 分 配 空间 的 具体 解释 : 

设 共 有 M 个 属性 fail ,as，*… ram) 

k=1 时 ,1- 项 强项 集 共 有 mi 个 属性 , 即 {ai san. “9 Qlm Fe 

k=2 时 ,2- 项 候选 集 为 1- 项 强项 集中 属性 的 两 两 组 合 ,所 以 2- 项 候选 集中 所 占 空间 为 
b =C 3 ;扫描 数据 库 , 求 2- 项 强项 集 。2- 项 强项 集 共 有 m, 个 属性 即 {az saz ， ** som, } 0 

k=3 时 ,3- 项 候选 集 为 2- pe 两 个 项 集 做 连接 操作 ,其 中 
将 首位 相同 的 这 些 属性 的 集合 用 Ss; 表 示 {s31 ,532，… ,ssn,)。 相 对 应 在 2- 项 强项 集中 , 包 全 
这 些 属 性 的 项 出 现 的 次 数 分 别 合 计 为 {pa pss ，…， Pan, ) ,3- 项 候选 项 集 所 占 空间 为 5， = 


SOC, ps > 268 = 1,2, ms GRE OR 3- 项 强项 集 。 
i=1 
同 理 , 依 次 求 & 一 1 项 强项 集 ,k 一 1 项 强项 集 共 有 m- AJ HE (aa s aant 


aua- Me-1}o 
当 求 上 项 强项 集 时 ,将 (k 一 1) 项 强项 集中 各 个 项 集 前 (4 一 2) 个 属性 相同 的 这 些 属性 的 集 
合用 Ss 表示 {sa ,sz ，… ,sm ) ,相对 应 在 (一 1) 项 强项 集中 ,包含 这 些 属性 的 项 出 现 的 次 数 分 别 


合计 为 {pa ,pr st s Pn, } ,项 候选 项 集 所 占 空 Sli] 为 久 = 了 Pi 251 = 1,250 mo 


5.3.2 快速 产生 强项 集 的 算法 流程 


快速 产生 强 关 联 属 性 (L;) 的 方法 描述 如 图 5. 3 所 示 。 
(1) 扫描 事务 数据 库 中 的 每 个 事务 ,产生 候选 1- 项 集 的 集合 Ci ; 
(2) 根据 最 小 支持 度 min_sup ,由 候选 1- 项 集 的 集合 Ci ,产生 强 1- 项 集合 Li ,对 于 在 事 
务 数 据 库 中 出 现 次 数 比 最 小 支持 度 min_sup 计数 少 的 属性 列 进行 逻辑 标记 ,在 以 后 的 各 次 
扫描 中 跳 过 这 些 属性 ; 
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依次 扫描 并 判断 C, 中 每 不 项 在 
此 记录 中 是 否 存在 :将 找到 的 
项 集 支持 度 计数 +1 
首先 而 定 该 记录 中 上 项 集 的 模 
<u 式 ， 将 Ct 中 对 应 的 项 集 支持 度 
计数 +1 


添加 逻辑 标记 ,以 后 
不 再 扫描 该 行 


| 


Y 
将 Ci 中 支持 度 计 数 大 于 最 小 支 
持 度 计数 的 项 集 放 入 L 中 


图 5.3 快速 产生 强 关 联 属性 (Li) 的 方法 
(图 中 SS() 代 表 第 i 条 记录 中 含有 1 的 个 数 ) 


(3) R k HE, S k=l; 

(4) 由 Li 产生 候选 (十 1)- 项 集 的 集合 Ce; 

(5) 根据 最 小 支持 度 min_sup, 由 候选 (十 1)- 项 集 的 集合 Cry, ,产生 (k 十 1)- 强 项 集 的 
集合 Liri, 方 法 是 扫描 数据 库 , 当 执行 到 第 i 行 时 : 

O 若 该 行 的 项 集 长 度 小 于 (k 十 1) , 则 对 该 行 作出 人 逻辑 标记 ,在 以 后 的 各 次 扫描 中 ,都 可 
以 跳 过 该 行 , 不 再 扫描 ; 

© 车 该 行 的 项 集 长 度 等 于 (k 十 1) ,确定 该 行 项 集 的 模式 ,与 候选 项 集中 的 模式 进行 匹 
配 , 匹 配 成 功 则 该 项 集 的 支持 度 计 数 器 十 1, 对 候选 项 集中 的 其 他 模式 ,在 本 行 中 不 再 扫描 ; 
匹配 不 成 功 则 跳 过 本 行 ; 

© 若 该 行 的 长 度 大 于 (& 十 1) ,将 此 行 中 与 候选 十 1 项 集 模式 相 匹 配 的 项 集 支 持 度 计 
数 器 十 1 。 将 候选 集 Ci+1 中 所 有 项 集 的 支持 度 与 min_sup 进行 比较 ,产生 Levi 

(6) 若 Lati 关 各, 则 有 =k 十 1, 跳 往 步骤 (4) ,否则 , 跳 往 步 又 (7); 

(7) 根据 最 小 置信 度 min_conf, 由 强项 集 产生 关联 规则 , 结 


5.3.3 改进 算法 的 时 间 复 杂 性 分 析 


Apriori 算法 的 时 间 复 杂 性 为 lg [7 ~re. — fH R<p. M p 作为 被 删除 的 


列 sk 作为 强项 集 的 长 度 。 对 改进 后 的 关联 规则 算法 的 时 间 复 杂 度 的 分 析 如 下 : 
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(1) 在 最 坏 的 情况 下 , 当 p=k it Ig | I [Ekle ono Dakle: 


(2) 当 k 二 p 或 者 k<p( 属 于 一 般 的 情况 ) 时 ,满足 lg [P l Fte mpv. 


因此 , 共 节 省 时 间 是 klg(p/k) {一 般 地 说 ,kp) ,这 对 于 一 个 大 型 的 数据 库 提高 系统 的 
使 用 效率 来 说 是 非常 重要 的 。 

在 解决 以 上 三 个 主要 研究 问题 后 ,总 结 改进 的 Apriori 方法 的 计算 步骤 ,快速 产生 强 关 
联 属 性 的 关联 规则 方法 总 体 流程 为 : 

(1) 将 DBS 问题 转换 成 抽象 的 DBS: 将 数据 库 中 的 数量 相关 的 问题 转换 成 逻辑 相关 的 
问题 。 按 照 决策 问题 要 求 ,将 数据 库 中 的 各 个 属性 转换 成 多 维 逻 辑 属 性 。 

(2) 求 强 项 集 : 该 问题 可 以 分 解 为 两 个 子 问题 : 

® 求 出 DD 中 满足 最 小 支持 度 min_sup 的 所 有 强项 集 ; 

© 利用 强项 集 生成 满足 最 小 可 信和 度 min_conf 的 所 有 关联 规则 。 

本 方法 对 子 问题 中 的 求解 是 知识 发 现 的 关键 部 分 。 具 体 方案 描述 如 下 : 由 候选 1- 项 集 
的 集合 Ci ,产生 强 1- 项 集合 Li ,对 于 在 数据 库 中 出 现 次 数 比 min_sup 计数 少 的 属性 列 进行 
逻辑 标记 ,在 以 后 的 各 次 扫描 中 跳 过 这 些 属 性 ; 求 & 项 集 , 令 &=1; 由 六 产生 候选 (十 1)- 
项 集 的 集合 Cori ;根据 min_sup, 由 候选 (十 1)- 项 集 的 集合 Co 产生 (&R 十 1)- 强 项 集 的 集合 
Lar1， 当 执行 到 第 i 行 ,车 该 行 的 项 集 长 度 小 于 (十 1) , 则 对 该 行 做 出 逻辑 标记 ,在 以 后 的 各 
次 扫描 中 ,都 可 以 跳 过 该 行 ,不 再 扫描 ; 若 该 行 的 项 集 长 度 等 于 (上 十 1) ,确定 该 行 项 集 的 模 
SU ,与 候选 项 集中 的 模式 进行 匹配 ,匹配 成 功 则 该 项 集 的 支持 度 计 数 器 十 1 ,对 候选 项 集中 的 
其 他 模式 ,在 本 行 中 不 再 扫 撒 ;匹配 不 成 功 则 跳 过 本 行 ; 若 该 行 的 长 度 大 于 (十 1) ,将 此 行 中 
与 候选 k 十 1 项 集 模 式 相 匹配 的 项 集 支持 度 计 数 器 十 1 ,将 候选 集 Ce 中 所 有 项 集 的 支持 度 
与 min-sup 进行 比较 ,产生 Liri ° 

(3) 将 抽象 的 DBS 问题 转换 成 DBS, 表 达 关 联 规则 。 

总 体 流程 图 如 图 5.4 所 示 。 


初始 化 C, Li» | 


最 小 支持 度 min_sup ， 
最 小 置信 和 度 min_conf 
1 


+ il | 


扫描 大 型 数据 库 | 


1 分 配 k+1 候选 
快速 产生 4 项 强项 集合 | 集 存储 空间 


<eu> N k=k+l 


Y 


图 5.4 快速 产生 强 关 联 属性 的 关联 规则 方法 总 体 流程 图 
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5.4 Apriori 关联 规则 方法 的 实例 


通过 关联 规则 分 析 受 过 高 等 教育 与 性 别 、 工 资 收 入 .职业 、 年 龄 等 之 间 的 潜在 关联 。 给 
出 一 个 简单 的 数据 库 的 例子 ,如 表 5. 1 所 示 。 
表 5.1 一 个 简单 的 数据 库 的 例子 


RECID SEX AGE KNOWLEDGE OCCUPATION WAGES 
100 male 46 Doctor Teacher 7500 
200 female 32 Master Teacher 6500 
300 male 35 Bachelor Technician 4900 
400 male 40 Master Teacher 6000 
500 male 37 Doctor Teacher 7000 
600 male 25 Bachelor Technician 4000 


1. 首先 将 实际 的 DBS 问题 转换 成 逻辑 值 
对 性 别 SEX 二 元 化 (1: male,2: female); 对 年 龄 AGE 离散 化 (3: old, AGE 之 40; 
4young,AGE 一 40); 对 是 否 受 过 研究 生 教 育 KNOWLEDGE 离散 化 (博士 或 者 硕士 ,5， 
high; 本 科 和 本 科 以 下 ,6: low); 对 职业 OCCUPATION 进行 二 元 化 处 理 (7: Teacher, 高 校 
教师 ;8: Technician , 非 高 校 教 师 ) ;对 收入 WAGES 进行 二 元 化 处 理 (9: WAGES>5000, 
10; WAGES< 一 5000) 。 通 过 以 上 的 数据 规约 , 表 5. 2 给 出 了 与 表 5.1 相对 应 的 迎 辑 表格 。 
表 5.2 数据 库 对 应 的 逻辑 库 


SEX KNOWLEDGE | OCCUPATION WAGES 
RECID 

1 2 3 7 8 9 10 

100 1 0 1 1 0 1 0 
200 0 1 0 1 0 1 0 
300 1 0 0 0 1 0 1 
400 1 0 1 1 0 1 0 
500 1 0 0 1 0 1 0 
600 1 0 0 0 1 0 1 


用 关联 规则 算法 找 出 表 5. 2 中 各 属性 之 间 有 价值 的 .潜在 的 关联 的 信息 即 规则 ,希望 最 
终 可 以 获得 高 等 教育 与 工资 .性 别 与 职业 、 职 务 与 工资 等 属性 之 间 的 关联 。 经 过 检索 逻辑 库 
(参见 表 5. 2) 得 到 每 条 记录 中 各 个 Item 的 取 值 ,如 表 5. 3 所 示 。 
2. 设 最 小 支持 度 min_sup 王 0.5, 最 小 置信 和 度 min_conf=0.7 求 得 关联 规则 
通过 数据 库 查询 (参见 表 5. 3) 得 到 & 项 候选 集 和 A 项 强项 集 (Le) 及 关联 规则 。 
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(1) 求 1 项 集 和 1 项 强项 集 , 如 表 5.4 所 示 。 
表 5.3 数据 库 中 记录 的 属性 项 取 值 集合 


Recid 


Items 


Os ls Ñ 


R54 1 项 集 和 1 项 强项 集 


Item Sum sup(I) Lı Item Sum sup(I) Li 
{1} 5 5/6 J {6} 2 2/6 
{2} 1 1/6 7} 4 4/6 vi 
{3} 2 2/6 8} 2 2/6 
{4} 1 4/6 ~ {9} 4 4/6 àf 
{5} 1 4/6 a 10} 2 2/6 


所 以 1 项 强项 集 Ly =({1}.{4}, {5}, {7}, {9)}。 
(2) 通过 1 项 强项 集 得 到 2 项 候选 集 , 再 计算 2 项 集 的 支持 度 得 到 2 项 强项 集 , 如 
表 5.5 所 示 。 


表 5.5 2 项 集 和 2 项 强项 集 


Items Sum sup(I,, U I„) Items Sum sup(I,, U1,) L: 
{1, 4} 3 3/6 tT) 2 2/6 
{1, 5} 3 3/6 | {4, 9} 2 2/6 
{1, 7} 3 3/6 5, 7} 1 4/6 af 
{1, 9} 3 3/6 5, 9} 1 4/6 ~ 
{4, 5} 2 2/6 {7, 9} 1 4/6 ~ 


所 以 2 GRE Le ={{1, 4}, {1, 5}, {1, 7}, {1, 9}, {5, 7}, {5, 9}, {7, 9}}。 
(3) 通过 1 项 强项 集 的 支出 度 sup(A) 计 算 2 项 强项 集 的 可 信和 度 conf n> I) = sup 
An UT, /sup Cn) ,得 到 2 项 关联 规则 ,如 表 5.6 所 示 。 


表 5.6 2 项 强项 集 的 可 信和 度 和 2 项 关联 规则 


sup(I,, U In) sup(I,, ) sup(1,) conf{f(1,—>1,) 2 项 关联 规则 


4/6 
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iens supCIn U In) conf(1, 过 1,) | 2 项 关联 规则 
{1, 9} 3/6 í 3/5 

(5, 7} 4/6 1 J 
{5,9} 4/6 1 J 

{7, 9) 1/6 1 J 


产生 的 2 项 关联 规则 为 I(5) 过 1(7);1(5) 过 1(9);1(7) 过 1(9)。 
(4) 通过 2 项 强项 集 得 到 3 项 候选 集 ,再 计算 3 项 集 的 支持 度 得 到 3 项 强项 集 , 如 
表 5.7 所 示 。 


表 5.7 3 项 集 和 3 项 强项 集 


Items sup(I,, URU?) Ls 
{1, 4, 5} 3/6 aff 
{1, 4, 7} 3/6 J 
{ly 49} 4/6 a 
fls Sy T} 

所 以 3 项 强项 集 La={{1, 5, 7}, {1, 5, 9}, (1, 7, 9}, {55 7, OF}. 

(5) 计算 3 项 强项 集 的 可 信和 度 , 得 到 3 项 关联 规则 ,如 表 5.8 所 示 。 


表 5.8 3 项 强项 集 的 可 信和 度 和 3 项 关联 规则 


1 557 5/6 P 

5 ii? F 
{1, 5, 7) 7 iy 5 F 
sup(1,, U I )=3/6 1.5 = : 

Le 5 F 

ire i 1 7 

1 5,9 

5 1.9 F 
{ls 5, 8} 9 1.5 F 
sup(I, U I )=3/6 1.5 F 7 

1,9 5 F 

5,9 il a 
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Items In HU) conf(I,,>1,) 3 项 关联 规则 
3/5 
7 3/4 J 
tis Ty 9 3/4 J 
supl Im U In) =3/6 1,7 y 
1,9 J 
7,9 3/4 af 
5 J 
7 J 
{5, 7, 9} 9 J 
sup(I,, U I,) =4/6 5,7 J 
5, 9 J 
7,9 ai 


如 表 5.8 所 示 ,产生 的 关联 规则 为 : 
ISI, Ds IOS, 5)5 Ty DS 
111, 7165), 165.7510), 16)>10,9), 
KOS, 5), 10,5)>109), 10, 9105), 
165,910) . KOS a IOS 7), 
1(11,7)>109) » 10.9) 1(7) , Ty 9101), 
(5) 1(7,. 9), (7) 105.9) 3 109) 105, 7)» 
165, 7) 109), 105, 9107), ICT, 9) = 105) 。 
(6) 由 3 WRIA Ls ={ (1,5, 7}, {1,5,9}, {1, 7,9}, (5, 7, 9)} ,可 知 4 项 集 只 有 
一 个 {1，5, 7, 9} ,如 表 5.9 所 示 。 
表 5.9 4 项 集 和 4 项 强项 集 


Items S sup(I,, UI, UI,) Es 


{1,5, 7, 9} £ 3/6 J 


C7) 计算 4 项 强项 集 的 可 信 度 ,得 到 4 项 关联 规则 ,如 表 5. 10 所 示 。 

产生 的 4 项 关联 规则 为 : 

15)>10,7,9), IM>IQ, 5, 9), 1(9)=>1(1, 5, 7), 

IQ, 5)=>1(7, 9), IQ, DIG, 9), IQ, 9)=>1(5, 7), 

KS. 7)>10,9), 165,9=>10,7)., (7,91, 5). 

11,5, 7109), IQ, 5, DSI, 10,7, 9165), 15,7, 911). 
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表 5.10 计算 4 项 强项 集 的 可 信和 度 和 4 项 关联 规则 


Items In (前 件 ) IR) supl Im) conf(I„ >I, ) 4 项 关联 规则 

1 bn te 9 5/6 3/5 
5 ee a) 4/6 3/4 J 
7 15559 4/6 3/4 J 
9 ecard 4/6 3/4 aff 
1,5 49 3/6 1 J 
La? 5.9 3/6 1 J 

{15.55 79 9} a = r F 

sup (Im U L) = 

3/6 547 1,9 3/4 J 
5, 9 is? 3/4 af 
7,9 LS 3/4 过 
和 9 3/4 J 
下 7 1 J 
iD a) 5 3/6 1 
Dac he 9 1 4/6 3/4 J 


(8) 还 需要 对 获得 的 关联 规则 进行 解释 和 可 视 化 处 理 。 

也 就 是 将 已 经 规约 离散 化 的 数据 返回 到 原始 的 含义 ,进行 有 含义 的 解释 ,使 得 使 用 关联 
规则 的 用 户 知 道 以 上 计算 过 程 所 得 到 的 结论 代表 的 实际 含义 。 对 得 到 的 部 分 关联 规则 的 含 
义 加 以 说 明 : 

O 17) 109) A: 在 最 小 支持 度 为 0.5 和 最 小 可 信 度 为 0.7 的 水 平 下 ,一 名 高 校 教 
师 之 月 收入 大 于 5000 元。 

O I1(5) 二 1(1,7) 表 示 : 在 最 小 支持 度 为 0.5 和 最 小 可 信和 度 为 0.7 的 水 平 下 ,有 Doctor 
和 Master 学 历 的 之 性 别 为 男士 并 且 可 以 成 为 一 名 高 校 教师 。 

OIA, 5, S19) RAR: 在 最 小 支持 度 为 0.5 和 最 小 可 信和 度 为 0.7 的 水 平 下 ,性 别 为 
男士 ,有 Doctor 和 Master 学 历 的 并 且 是 一 名 高 校 教师 之 月 收入 大 于 5000 元 。 

从 上 述 结果 得 出 高 等 教育 与 性 别 .高 等 教育 与 工资 大 学 教师 与 性 别 、. 职 业 与 工资 .高 工 
资 与 教育 .高 等 教育 与 年 龄 等 的 潜在 关联 。 

若 将 上 例 的 最 小 支持 度 改 为 0. 3 ,候选 项 集 .强项 集 以 及 关联 规则 会 和 否 发 生变 化 呢 ? 下 
面 通过 计算 加 以 说 明 。 

3. 设 最 小 支持 度 min_sup 二 0.3, 最 小 置信 和 度 min_conf=0.7 求 得 关联 规则 

(1) 求 1 项 集 和 1 项 强项 集 , 如 表 5. 11 所 示 。 

所 以 1 项 强项 集 二 三 {{1)，, (3} (4)} (5} (6)，(7} (8) (9)}， (10}) 。 

(2) 通过 1 项 强项 集 得 到 2 项 候选 集 , 再 计算 2 项 集 的 支持 度 得 到 2 项 强项 集 , 如 
表 5.12 所 示 。 
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表 5.11 1 项 集 和 1 项 强项 集 


Item Sum sup(I) Li Item Sum sup(I) Ly 
{1} 5 5/6 ~f {6} 2 2/6 ME 
{2} 1 1/6 {7} 1 1/6 J 
{3} 2 2/6 J {8} 2 2/6 ~ 
{4} 4 4/6 af {9} 4 1/6 nj 
{5} 4 4/6 af {10} 2 2/6 sf 


表 5.12 2 项 集 和 2 项 强项 集 


Items Sum sup(I,, U1,) Li Items Sum sup(I,, U1,) Ls 
{15-3} 2 2/6 J {4, 8} 2 2/6 
{1, 4} 3 3/6 af {4, 9} 2 2/6 
{15.5} 3 3/6 aj {4, 10} 2 2/6 a 
{1, 6} 2 2/6 J {5, 6} 0 0/6 
{1, 7} 3 3/6 J {5, 7} 1 4/6 / 
{ks 2 2/6 J {5, 8} 0 0/6 
{1, 9} 3 3/6 a {5, 9} 4 4/6 ~ 
{1, 10} 2 2/6 .| {5, 10} 0 0/6 
{3, 4} 0 0/6 {6, 7} 0 0/6 
{35.5} 2 2/6 J {6, 8} 2 2/6 ~ 
{3, 6} 0 0/6 {6, 9} 0 0/6 
{3, 7} 2 2/6 JV {6. 10} 2 2/6 ~ 
{3, 8} 0 0/6 17, 8} 0 0/6 
{3, 9} 2 2/6 af {7, 9} 1 4/6 aff 
{3, 10} 0 0/6 {7, 10} 0 0/6 
{45.5} 2 2/6 af {8, 9} 0 0/6 
{4, 6} 2 2/6 {8, 10} 2 2/6 x 
{4, 7} 2 2/6 {9, 10} 0 0/6 


PRUA 2 Wah Ie L,={{1, 3}, {1, 4}, (1, 5}, {1, 6}. {1, 7}, {1, 8}, {ly 9}, 
{is 10}5 435 Shs 48% Tys (35 9} (45 Shs {4s Gh. (45. Thy {ds 8) 44s Oh a {tr 10}, 
£55. Fhe {55 9} (65. 8r 465. 1035 {75 
(3) 计算 2 项 强项 集 的 可 信和 度 , 得 到 2 项 关联 规则 ,如 表 5.13 所 示 。 
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表 5.13 2 项 强项 集 的 可 信和 度 和 2 项 关联 规则 


Items sup(I,, UL) sup(I,,) sup(I,,) conf(I,, >I, ) 2 项 关联 规则 
es 2/6 5/6 2/6 2/5 

{1, 4} 3/6 5/6 4/6 3/5 

{1, 5} 3/6 5/6 4/6 3/5 

{1, 6} 2/6 5/6 2/6 2/5 

{1,7} 3/6 5/6 4/6 3/5 

{1, 8} 2/6 5/6 2/6 2/5 

{1, 9} 3/6 5/6 4/6 3/5 

{1, 10} 2/6 5/6 2/6 2/5 

tv 2/6 2/6 4/6 

{3, 7} 2/6 2/6 4/6 

{3, 9} 2/6 2/6 4/6 

{4, 5} 2/6 4/6 4/6 /2 

{4, 6} 2/6 4/6 2/6 /2 

{4, 7} 2/6 4/6 4/6 1/2 

{4, 8} 2/6 4/6 2/6 /2 

{4, 9} 2/6 4/6 4/6 1/2 

{4, 10} 2/6 4/6 2/6 /2 

{5, 7} 4/6 4/6 4/6 V 
{5, 9} 4/6 1/6 4/6 J 
{6, 8} 2/6 2/6 2/6 Yi 
{6, 10} 2/6 2/6 2/6 «ff 
{7, 9} 4/6 4/6 4/6 af 
{8, 10} 2/6 2/6 2/6 rw 


POAE AD EIR 103) S105) 513) S17) 13S 19) 15) S17) 1G) S19) ; 
1(6)=>1(8) ;1(6)>1(10) 5107) > 1(9) 51(8) 110). 

同 理 , 按 照 上 述 算法 ,可 以 求 出 3、4 项 候选 集 , 强 项 集 和 关联 规则 等 。 在 此 不 再 做 详细 
计算 。 通 过 这 两 个 例子 ,可 以 发 现 , 设 定 不 同 的 最 小 支持 度 ,相应 求 出 的 强项 集 也 会 发 生变 
化 ,产生 的 关联 规则 也 将 有 差异 。 
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5.5 小 结 


关联 规则 是 数据 挖掘 的 重要 方法 之 一 ,用 来 得 到 有 价值 的 规则 。 本 章 重点 介绍 了 关联 
规则 的 定义 与 解释 、 关 联 规则 在 知识 管理 过 程 中 的 应 用 、 关 联 规则 算法 、 关 联 规则 算法 流程 ， 
提出 了 一 种 Apriori 算法 的 改进 方法 ,最 后 给 出 了 Apriori 算法 的 具体 计算 过 程 。 


. 解释 关联 规则 的 定义 。 

. 闸 述 关联 规则 在 知识 管理 过 程 中 的 应 用 。 
.理解 关联 规则 算法 计算 过 程 。 

.描述 改进 的 Apriori 关联 规则 算法 。 


Bw nd 
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OR ”党 类 分 析 方 法 与 应 用 


首先 介绍 聚 类 的 基本 理论 ,指出 对 聚 类 算法 性 能 的 要 求 。 从 基于 划分 、. 层 次、 密度 .网 格 
和 模型 五 个 角度 对 聚 类 分 析 的 方法 进行 分 类 。 详 细 介 绍 几 种 常见 聚 类 算法 及 实例 ,包括 k- 
means 聚 类 ,k-medoids 聚 类 ,AGNES 聚 类 ,DIANA 聚 类 和 DBSCAN 聚 类 方法 。 


6.1 聚 类 分 析 的 基础 理论 


6.1.1 聚 类 分 析 的 定义 


聚 类 (Clustering) 是 将 数据 划分 成 群 组 的 过 程 。 研 究 如 何在 没有 训练 的 条 件 下 把 对 象 
划分 为 若干 类 。 通 过 确定 数据 之 间 在 预先 制定 的 属性 上 的 相似 性 来 完成 聚 类 任务 ,这样 最 
相似 的 数据 就 聚集 成 复 (Cluster) 。 聚 类 与 分 类 不 同 , 聚 类 的 类 别 取 决 于 数据 本 身 , 而 分 类 
的 类 别 是 由 数据 分 析 人 员 预 先 定义 好 的 。 使 用 聚 类 算法 的 用 户 不 但 需要 深刻 地 了 解 所 用 的 
特殊 技术 ,而 且 还 要 知道 数据 收集 过 程 的 细节 及 拥有 应 用 领域 的 专家 知识 。 用 户 对 手头 数 
据 了 解 得 越 多 ,用户 越 能 成 功 地 评估 它 的 真实 结构 。 

聚 类 分 析 方 法 可 以 应 用 在 数据 挖掘 的 各 个 过 程 中 ,如 在 数据 预 处 理 操 作 中 ,针对 数 
据 需求 ,对 于 数据 结构 简单 或 者 与 运 量 分 析 有 单 属 性 和 较 少 属性 关联 的 数据 可 以 在 经 过 
数据 清理 等 预 处 理 后 直接 整合 人 数据 仓库 ,而 对 于 复杂 结构 的 多 维 数据 可 以 通过 聚 类 的 
方法 将 数据 聚集 后 构造 出 逻辑 库 ,使 复杂 结构 数据 标准 化 ,为 某 些 数据 挖掘 方法 (如 关联 
规则 ,粗糙 集 方法 ) 提 供 预 处 理 。 为 了 满足 某 些 数据 挖掘 算法 的 需要 ,有 时 要 对 连续 的 数 
据 进 行 离散 化 处 理 , 使 条 件 属性 和 决策 属性 值 简约 化 .规范 化 ,这 时 就 需要 对 数据 进行 聚 
类 处 理 。 


6.1.2 对 聚 类 算法 性 能 的 要 求 


聚 类 就 是 将 数据 对 象 分 组 成 多 个 类 或 簇 的 过 程 ,在 同一 个 簇 中 的 对 象 之 间 具 有 和 较 高 的 
相似 度 , 而 不 同 簇 中 的 对 象 差别 较 大 。 相 似 度 是 根据 描述 对 象 的 属性 值 来 计算 的 。 聚 类 是 
经 常 采 用 的 度量 方式 。 聚 类 分 析 源 于 许多 研究 领域 ,包括 数据 挖掘 .统计 学 .生物 学 以 及 机 
器 学 习 等 。 

聚 类 分 析 是 一 个 具有 很 强 挑战 性 的 领域 , 它 的 一 些 潜在 的 应 用 对 分 析 算 法 提出 了 特别 
的 要 求 , 下 面 列 出 一 些 典型 的 要 求 : 

(1) 伸缩 性 : 这 里 的 伸缩 性 是 指 算法 要 能 够 处 理 大 数据 量 的 数据 库 对 象 ,如 处 理 上 百 
万 条 记录 的 数据 库 , 这 就 要 求 算法 的 时 间 复 杂 度 不 能 太 高 ,最 好 是 多 项 式 时 间 的 算法 。 值 得 
注意 的 是 , 当 算 法 不 能 处 理 大 数据 量 时 ,用 抽样 的 方法 来 弥补 也 不 是 一 个 好 主意 ,因为 它 通 
常会 导致 焉 曲 的 结果 。 
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(2) 处 理 不 同 字段 类 型 的 能 力 : 算法 不 仅 要 能 处 理 数值 型 的 字段 ,还 要 有 处 理 其 他 类 
型 字段 的 能 力 ,如 布尔 型 . 枚 举 型 .序数 型 及 混合 型 等 。 

(3) 发 现 具有 任意 形状 的 聚 类 的 能 力 : 很 多 聚 类 分 析 算法 采用 基于 欧 几 里 得 距离 的 相 
似 性 度量 方法 ,这 一 类 算法 发 现 的 聚 类 通常 是 一 些 球状 的 ,大 小 和 密度 相近 的 类 ,但 可 以 想 
象 ,显示 数据 库 中 的 聚 类 可 能 是 任意 形状 的 ,甚至 是 具有 分 层 树 的 形状 , 故 要 求 算 法 有 发 现 
任意 形状 的 聚 类 的 能 

(4) 输入 参数 对 领域 知识 的 依赖 性 : 很 多 聚 类 算法 都 要 求 用 户 输入 一 些 参 数 , 例如 需 
要 发 现 的 聚 类 数 .结果 的 支持 度 及 置信 度 等 。 聚 类 分 析 的 结果 通常 都 对 这 些 参数 很 敏感 ,但 
另 一 方面 ,对 于 高 维 数据 ,这 些 参数 又 是 相当 难以 确定 的 。 这 样 就 加 重 了 用 户 使 用 这 个 工具 
的 负担 ,导致 分 析 的 结果 很 难 控制 。 一 个 好 的 聚 类 算法 应 当 针 对 这 个 问题 ,给 出 一 个 好 的 解 
决 方法 。 

(5) 能 够 处 理 异常 数据 : 现实 数据 库 中 常常 包含 异常 数据 ,例如 数据 不 完整 ,缺乏 某 些 
字段 的 值 ,甚至 是 包含 错误 数据 现象 。 有 一 些 数 据 算法 可 能 会 对 这 些 数据 很 敏感 ,从 而 导致 
错误 的 分 析 结 果 。 

(6) 结果 对 输入 记录 顺序 的 无 关 性 : 有 些 分 析 算 法 对 记录 的 输入 顺序 是 敏感 的 , 即 对 
同一 个 数据 集 , 将 它 以 不 同 的 顺序 输入 ,得 到 的 结果 会 不 同 ,这 是 我 们 不 希望 的 。 

CT) 处 理 高 维 数据 的 能 力 : 每 个 数据 库 或 者 数据 仓库 都 有 很 多 的 字段 或 者 说 明 ,一 
些 分 析 算 法 对 处 理 维 数 较 少 的 数据 集 时 表现 不 错 , 但 是 对 于 高 维 数据 的 聚 类 分 析 就 会 
稍 显 不 足 。 因 为 在 高 维 空间 中 ,数据 的 分 布 是 极其 稀 玻 的 ,而 且 形 状 也 可 能 是 极其 不 
规则 的 。 

(8) 增加 限制 条 件 后 的 聚 类 分 析 能 力 : 现实 的 应 用 中 经 常会 出 现 各 种 各 样 的 限制 条 
件 ,我 们 希望 聚 类 算法 可 以 在 考虑 这 些 限制 的 情况 下 ,仍旧 有 很 好 的 表现 。 

(9) 结果 的 可 解释 性 和 可 用 性 : 聚 类 的 结果 最 终 都 是 要 面向 用 户 的 ,所 以 结果 应 该 是 
容易 解释 和 理解 的 ,并 且 是 可 应 用 的 。 这 就 要 求 聚 类 算法 必须 与 一 定 的 语义 环境 及 语义 解 
释 相 关联 。 领 域 知识 如 何 影 响 聚 类 分 析 算 法 的 设计 是 很 重要 的 一 个 研究 方面 。 


6.2 聚 类 分 析 的 方法 


现 有 的 聚 类 技术 大 致 可 以 分 为 如 下 五 大 类 : 基于 划分 的 方法 (Partitioning Method) , 基 
于 层次 的 方法 (Hierarchical Method) ,基于 密度 的 方法 (Density-based Method) ,基于 网 格 
的 方法 (Grid-based Method) 和 基于 模型 的 方法 (Model-based Method)。 下 面 对 这 五 种 聚 
类 技术 进行 详细 介绍 。 


6.2.1 基于 划分 的 聚 类 方法 


给 定 一 个 含有 N 个 对 象 的 数据 集 , 以 及 要 生成 的 簇 的 数目 K。 每 一 个 分 组 就 代表 一 个 

聚 类 ,KN。 这 K 个 分 组 满足 下 列 条 件 : 每 一 个 分 组 至 少 包含 一 个 数据 记录 ,每 一 个 数据 

记录 属于 且 仅 属于 一 个 分 组 (注意 ,这 个 要 求 在 某 些 模糊 聚 类 算法 中 可 以 放宽 )。 对 于 给 定 

的 天, 算法 首先 的 任务 就 是 将 数据 构建 成 天 个 划分 ,以 后 通过 反复 迭代 从 而 改变 分 组 的 重 
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定位 技术 ,使 得 每 一 次 改进 之 后 的 分 组 方案 都 较 前 一 次 好 。 将 对 象 在 不 同 的 划分 间 移 动 E 
至 满足 一 定 的 准则 。 一 个 好 的 划分 的 一 般 准 则 是 : 在 同一 个 秘 中 的 对 象 尽 可 能 “相似 ”, 不 
同 艇 中 的 对 象 则 尽 可 能 “ 相 异 ”。 

在 划分 方法 中 ,最 经 典 的 就 是 k- 平 均 (k-means) 算 法 和 中 心 (k-medoids) 算 法 ,很 多 
算法 都 是 由 这 两 个 算法 改进 而 来 的 。 

k-means 算法 只 有 在 平均 值 被 定义 的 情况 下 才能 使 用 ,因此 该 算法 容易 受到 孤立 点 的 
影响 ,k-medoids 算法 采用 簇 中 最 中 心 的 位 置 作为 代表 点 而 不 是 采用 对 象 的 平均 值 。 因 此 ， 
与 k-means 算法 相 比 , 当 存 在 噪声 和 孤立 点 数据 时 ,k-medoids 算法 要 较 k-means 算法 健 
壮 , 而 且 没 有 k-means 算法 那样 容易 受到 极端 数据 的 有 影响。 在 时 间 复 杂 度 上 ,k-means 算法 
的 时 间 复 杂 度 为 O(nk?) ,而 k-medoids 算法 的 时 间 复 杂 度 大 约 为 O(x?), 后 者 的 执行 代价 要 
高 得 多 。 此 外 ,这 两 种 方法 都 要 求 用 户 指 定 聚 类 数目 K. 

基于 划分 的 聚 类 方法 优点 是 收敛 速度 快 ,缺点 是 它 要 求 类 别 数目 K 可 以 合理 地 估计 ， 
并 且 初 始 中 心 的 选择 和 噪声 会 对 聚 类 结果 产生 很 大 影响 。 


6.2.2 基于 层次 的 聚 类 方法 


基于 层次 的 聚 类 方法 对 给 定 的 数据 进行 层次 的 分 解 ,直到 某 种 条 件 满 足 为 止 。 首 先 将 
数据 对 象 组 成 一 棵 聚 类 树 ,然后 根据 层次 , 自 底 向 上 或 自 顶 向 下 分 解 。 层 次 的 方法 可 以 分 为 
凝 罕 的 方法 和 分 裂 的 方法 。 

凝聚 的 方法 ,也 称 为 自 底 向 上 的 方法 ,初始 时 每 个 对 象 都 被 看 成 是 单独 的 一 个 簇 ,然后 
通过 逐步 地 合并 相近 的 对 象 或 入 形成 越 来 越 大 的 徐 , 直 到 所 有 的 对 象 都 在 一 个 簇 中 ,或 者 达 
到 某 个 终止 条 件 为 止 。 层 次 凝聚 的 代表 是 AGNES(AGglomerative NESting) 算 法 。 

分 裂 的 方法 ,也 称 为 自 顶 向 下 的 方法 , 它 与 凝聚 层次 聚 类 恰好 相反 ,初始 时 将 所 有 的 对 
象 置 于 一 个 复 中 ,然后 逐渐 细 分 为 更 小 的 复 , 直 到 最 终 每 个 对 象 都 在 单独 的 一 个 徐 中 ,或 者 
达到 某 个 终止 条 件 为 止 。 层 次 分 裂 的 代表 是 DIANA(DIvisive ANAlysis) 算 法 。 

无 论 是 凝聚 的 方法 还 是 分 裂 的 方法 ,前 提 条 件 都 是 假设 数据 是 一 次 性 提供 的 ,因此 
都 不 是 增 量 算 法 。 在 一 个 合并 或 分 裂 动 作 被 执行 后 ,就 不 能 再 改变 ,这 样 有 可 能 会 影响 
聚 类 的 质量 。 层 次 聚 类 算法 因 实 现 简单 而 广 受 欢迎 ,但 是 在 实际 操作 中 经 常会 遇 到 合并 
或 分 裂 点 选择 的 问题 。 由 于 分 裂 和 合并 操作 是 不 可 逆 的 ,下 一 步 的 处 理 都 是 在 新 的 生成 
复 上 进行 的 ,所 以 如 何 选择 这 些 分 裂 或 合并 点 是 非常 关键 的 。 在 层次 聚 类 中 ,任何 已 作 
的 处 理 都 不 能 被 撤销 , 复 之 间 的 对 象 也 是 不 能 交换 的 。 任 一 步 的 处 理 如 不 得 当 , 都 可 能 
导致 聚 类 质量 的 降低 。 此 外 ,这 类 算法 在 合并 、 分 裂 时 要 检测 和 估算 大 量 的 对 象 和 复 , 因 
而 伸缩 性 较 差 。 为 了 改进 层次 聚 类 算法 的 聚 类 质量 ,新 的 研究 从 层次 聚 类 与 其 他 聚 类 技 
术 结 合 人 人手, 将 层次 聚 类 和 其 他 聚 类 技术 进行 集成 ,形成 多 阶段 的 聚 类 。 比 较 和 常见 的 方 
法 有 四 种 : BIRCH,CURE, ROCK 和 CHAMELEON., 下 面 介绍 最 具 代 表 性 的 BIRCH 算 
法 和 CURE 算法 。 

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) 算 法 是 一 个 综 
合 性 的 层次 聚 类 方法 , 它 利 用 层次 方法 的 平衡 迭代 进行 归 约 和 聚 类 。 其 核心 是 用 一 个 聚 类 
特征 三 元 组 表示 一 个 簇 的 有 关 信 息 ,从 而 使 簇 中 的 点 可 用 对 应 的 聚 类 特征 表示 。 它 通过 构 
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造 满足 分 支 因 子 和 复 直 径 限 制 的 聚 类 特征 树 来 求 聚 类 。 该 算法 通过 聚 类 特征 可 以 方便 地 进 
行 中 心 .半径 、 直 径 及 类 内 、 类 间距 离 的 运算 。 该 算法 的 优点 是 具有 对 象 数 目的 线性 易 伸 缩 
性 及 良好 的 聚 类 质量 ,一 次 扫描 就 可 以 进行 较 好 的 聚 类 ,其 计算 复杂 度 为 O(n),n 是 对 象 的 
数目 。 缺 点 是 BIRCH 算法 只 适用 于 类 的 分 布 呈 凸 形 及 球形 的 情况 ,对 不 可 视 的 高 维 数据 
则 是 不 可 行 的 。 

CURE(Clustering Using Reprisentatives) 算 法 中 既 有 层次 部 分 ,也 有 划分 部 分 ,所 以 
CURE 是 一 个 综合 性 的 聚 类 算法 。CURE 算法 过 程 为 首先 从 每 个 簇 中 选择 c( 常 数 ) 个 点 ， 
然后 通过 应 用 收缩 因子 a, 将 这 些 分 散 的 点 向 簇 的 质心 方向 收缩 。 当 a 为 1 时 ,所 有 点 都 收 
缩 成 一 点 , 即 质心 。 由 这 些 点 代表 的 簇 ,要 比 单个 点 更 具有 代表 性 。 通 过 多 个 有 代表 性 的 
点 , 艇 的 形状 可 以 更 好 地 被 表示 出 来 。 这 一 步 完 成 后 ,再 使 用 层次 聚 类 算法 中 的 凝聚 算法 。 
在 凝聚 算法 中 的 每 一 步 ,距离 最 近 的 代表 性 点 所 对 应 的 簇 将 被 合并 。 它 们 之 间 的 距离 被 定 
义 为 两 个 簇 中 代表 性 点 之 间距 离 的 最 小 值 。CURE 算法 的 优点 是 它 回避 用 所 有 点 或 单个 
质心 来 表示 一 个 簇 的 传统 方法 ,而 是 将 一 个 徐 用 多 个 具有 代表 性 的 点 来 表示 ,使 CURE 可 
以 适应 非 球形 的 几何 形状 。 另 外 ,收缩 因子 降低 了 噪音 对 聚 类 的 影响 ,从 而 使 CURE 对 孤 
立 点 的 处 理 更 加 健壮 ,而 且 能 识别 非 球 形 和 大 小 变化 比较 大 的 簇 ,对 于 大 型 数据 库 具有 良好 
的 伸缩 性 。 缺 点 是 参数 设置 对 聚 类 结果 有 很 大 的 影响 ,不 能 处 理 分 类 属性 。CURE 的 复杂 
EE O(n) ,其 中 是 对 象 的 数目 。 


6.2.3 基于 密度 的 聚 类 方法 


基于 密度 的 方法 与 其 他 方法 的 一 个 根本 区 别 是 : 它 不 是 基于 各 种 各 样 的 距离 的 ,而 是 
基于 密度 的 ,这 样 就 能 克服 基于 距离 的 算法 只 能 发 现 球状 聚 类 ,对 发 现任 意 形状 的 聚 类 则 显 
得 不 足 的 缺点 。 基 于 密度 的 聚 类 方法 从 对 象 分 布 区 域 的 密度 着 手 ,对 于 给 定 类 中 的 数据 点 ， 
如 果 在 给 定 范围 的 区 域 中 ,对 象 或 数据 点 的 密度 超过 某 一 阔 值 就 继续 聚 类 。 这 样 通过 连接 
密度 较 大 区 域 ,就 能 形成 不 同形 状 的 聚 类 ,而 且 还 可 以 消除 孤立 点 和 噪声 对 聚 类 质量 的 影 
响 , 发 现任 意 形状 的 簇 。 

这 种 聚 类 算法 能 够 在 带 有 “噪声 ”的 信息 系统 中 发 现任 何 形状 的 聚 类 ,并 且 具 有 对 数据 
输入 顺序 不 敏感 的 优点 。 一 个 基于 密度 的 徐 是 基于 密度 可 达 性 ,具有 最 大 簇 内 密度 的 各 相 
连 对 象 的 集合 。 不 包含 在 任何 簇 中 的 对 象 被 认为 是 噪声 点 。 

基于 密度 的 聚 类 方 中 最 具 代 表 性 的 是 DBSCAN $834. OPTICS 算法 和 DENCLUE 算 
法 。 下 面 介 绍 最 常用 的 DBSCAN 算法 。 

DBSCAN(Density-Based Spatial Clustering of Applacations with Noise) 算 法 可 以 将 足 
够 高 密度 的 区 域 划分 为 复 , 并 可 以 在 带 有 ”噪声 ”的 空间 数据 库 中 发 现任 意 形状 的 聚 类 。 该 
算法 定义 簇 为 密度 相连 的 点 的 最 大 集合 。DBSCAN 通过 检查 数据 库 中 每 个 点 的 邻 域 来 寻 
找 聚 类 。 如 果 一 个 点 户 的 邻 域 中 包含 数据 项 的 个 数 多 于 最 小 阔 值 , 则 创建 一 个 以 p 作为 核 
心 对 象 的 新 复 。 然 后 反复 地 寻找 从 这 些 核心 对 象 直 接 密度 可 达 的 对 象 , 当 没有 新 的 点 可 以 
被 添加 到 任何 徐 时 ,该 过 程 结 束 。 不 被 包含 在 任何 簇 中 的 对 象 被 认为 是 “噪声 ”。DBSCAN 
算法 不 进行 任何 的 预 处 理 而 直接 对 整个 数据 集 进行 聚 类 操作 。 当 数据 量 非常 大 时 ,就 必须 
有 大 内 存 支 持 , 1/O 消耗 也 非常 大 。 如 果 采 用 空间 索引 , DBSCAN 的 计算 复杂 度 是 
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O(nlogn) ,这 里 n 是 数据 库 中 对 象 数 目 。 否 则 ,计算 复杂 度 是 OG ), 聚 类 过 程 的 大 部 分 时 
间 用 在 区 域 查 询 操作 上 。 

DBSCAN 算法 的 优点 是 能 够 发 现 空间 数据 库 中 任意 形状 的 密度 连通 集 ;在 给 定 合适 的 
参数 条 件 下 ,能 很 好 地 处 理 噪声 点 ;对 用 户 领 域 知识 要 求 较 少 ;对 数据 的 输入 顺序 不 太 敏 感 ; 
适用 于 大 型 数据 库 。 其 缺点 是 要 求 事先 指定 领域 和 浆 值 ;具体 使 用 的 参数 依赖 于 应 用 的 
目的 。 


6.2.4 基于 网 格 的 聚 类 方法 


基于 网 格 的 聚 类 方法 首先 将 数据 空间 划分 成 有 限 个 单元 (Cell) 的 网 格 结构 ,所 有 的 处 
理 都 是 以 单个 单元 为 对 象 ,在 这 个 网 格 结构 上 进行 的 。 这 类 方法 的 主要 优点 就 是 它 的 处 理 
速度 很 快 ,处 理 时 间 独 立 于 数据 对 象 的 数目 , 仅 依赖 于 量化 空间 中 每 一 维 的 单元 数目 ; 聚 类 
的 精度 取决 于 单元 格 的 大 小 ,也 就 是 说 ,通常 与 目标 数据 库 中 记录 的 个 数 无 关 , 只 与 把 数据 
空间 分 为 多 少 个 单元 有 关 。 这 类 算法 也 有 其 缺点 , 它 只 能 发 现 边 界 是 水 平 或 垂直 的 复 ,而 不 
能 检测 到 斜 边界 。 此 外 ,在 处 理 高 维 数据 时 ,网 格 单元 的 数目 会 随 着 属性 维 数 的 增长 而 成 指 
数 增长 。 

一 般 来 说 ,所 有 基于 网 格 的 聚 类 算法 几乎 都 存在 下 列 问题 : 

(1) 如 何 选择 合适 的 单元 大 小 和 数目 。 单 元 数目 太 少 时 ,精度 就 会 很 低 ,而 单元 数目 太 
多 时 算法 的 复杂 度 就 会 变 大 。 

(2) 如 何 对 每 个 单元 中 对 象 的 信息 进行 汇总 。 常 见 的 基于 网 格 的 方法 有 STING 算法 、 
CLIQUE 算法 和 WAVE-CLUSTER 算法 。STING 利用 存储 在 网 格 单元 中 的 统计 信息 来 
进行 聚 类 处 理 ,WAVE-CLUSTER 用 一 种 小 波 变换 的 方法 来 进行 聚 类 处 理 ,CLIQUE 是 在 
高 维 数据 空间 中 基于 网 格 和 密度 的 聚 类 方法 。 下 面 介绍 最 具 代 表 性 的 STING 算法 。 

STING(STatistical INformation Grid) 算 法 是 一 种 格 的 多 分 辩 率 聚 类 技术 , 它 将 空间 区 
域 划分 为 矩形 单元 。 针 对 不 同 级 别 的 分 辩 率 ,通常 存在 多 个 级 别 的 矩形 单元 ,这 些 单 元 形成 
了 一 个 层次 结构 ,高层 的 每 个 单元 被 划分 为 多 个 低 一 层 的 单元 。 高 层 单元 的 统计 参数 可 以 
很 容易 地 从 低层 单元 的 计算 得 到 。 这 些 参 数 包 括 属 性 无 关 的 参数 count, 属 性 相关 的 参数 
m( 平 均值 ),s (标准 偏差 ),min( 最 小 值 ), max( 最 大 值 ) ,以 及 该 单元 中 属性 值 遵循 的 分 布 
(Distribution) 类 型 。STING 扫描 数据 库 一 次 来 计算 单元 的 统计 信息 ,因此 产生 聚 类 的 时 
间 复 杂 度 是 O(n) ,其 中 是 对 象 的 数目 。 在 层次 结构 建立 后 ,查询 处 理 时 间 是 O(g),g 是 
最 低层 中 单元 的 数目 ,通常 远 远 小 于 n。STING 算法 效率 高 ,是 独立 于 查询 的 , 且 利 于 并 行 
处 理 和 增 量 更 新 。 但 由 于 STING 采用 了 一 个 多 分 辩 率 的 方法 来 进行 聚 类 分 析 , 聚 类 的 质 
量 取决 于 网 格 结构 的 最 低层 粒度 。 如 果 数 据 粒度 比较 细 , 处 理 的 代价 会 明显 增加 ,而 且 该 算 
法 没有 考虑 子 单元 和 其 他 相 邻 单元 之 间 的 关系 。 尽 管 该 算法 处 理 速度 较 快 ,但 是 可 能 会 降 
低 复 的 质量 和 精确 性 。 


6.2.5 基于 模型 的 聚 类 方法 


基于 模型 的 聚 类 方法 试图 优化 给 定 的 数据 和 某 些 数学 模型 之 间 的 适应 性 。 给 每 一 个 
类 假定 一 个 模型 ,然后 去 寻找 能 够 很 好 地 满足 这 个 模型 的 数据 集 。 这 样 一 个 模型 可 能 是 数 
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据点 在 空间 中 的 密度 分 布 函数 或 者 其 他 函数 。 它 的 一 个 潜在 的 假定 就 是 : 目标 数据 集 是 由 
一 系列 潜在 的 概率 分 布 所 决定 的 。 在 这 类 算法 中 , 聚 类 的 数目 也 根据 统计 数字 自动 决定 , 噪 
声 和 孤立 点 也 是 通过 统计 数字 来 分 析 的 。 基 于 模型 的 聚 类 方法 主要 有 三 类 : 统计 学 方法 、 
神经 网 络 方法 以 及 基于 群 的 聚 类 方法 。 

1. 统计 学 方法 

从 统计 学 的 观点 看 , 聚 类 分 析 是 通过 数据 建 模 简化 数据 的 一 种 方法 。 概 念 聚 类 就 是 其 
中 的 一 种 。 概 念 聚 类 的 绝 大 多 数 方法 都 采用 了 统计 学 的 途径 ,在 决定 概念 或 聚 类 时 ,使 用 概 
率 度量 。 它 将 数据 分 成 多 组 ,对 一 组 未 标记 的 数据 对 象 产 生 一 个 分 类 模式 ,并 对 每 个 分 类 模 
式 给 出 其 特征 描述 , 即 每 组 对 象 代表 了 一 个 概念 或 类 。 在 这 里 , 聚 类 质量 不 再 只 是 单个 对 象 
的 函数 ,而 是 加 入 了 如 导出 的 概念 描述 的 简单 性 和 一 般 性 等 因素 。 

COBWEB 是 一 种 典型 的 简单 增 量 概念 聚 类 算法 ,以 一 个 分 类 树 的 形式 创建 层次 聚 类 。 
它 的 输入 对 象 用 “分 类 属性 - 值 ” 对 来 描述 ;其 工作 流程 是 在 给 定 一 个 新 的 对 象 后 ,COBWEB 
沿 一 条 适当 的 路 径 向 下 ,修改 计数 ,以 寻找 可 以 分 类 该 对 象 的 最 好 节点 。 该 判定 将 对 象 临 时 
置 于 每 个 节点 ,并 计算 划分 结果 的 分 类 效用 。 产 生 最 高 分 类 效用 的 位 置 应 当 是 对 象 节点 的 
一 个 好 的 选择 。COBWEB 可 以 自动 修正 划分 中 类 的 数目 ,不 需要 用 户 提供 输入 参数 。 缺 点 
是 COBWEB 基于 这 样 一 个 假设 : 在 每 个 属性 上 的 概率 分 布 是 彼此 独立 的 。 但 这 个 假设 并 
不 总 是 成 立 的 。 分 类 树 对 于 偏 斜 的 输入 数据 不 是 高 度 平衡 的 , 它 可 能 导致 时 间 和 空间 复杂 
性 的 剧烈 变化 。COBWEB 不 适用 于 聚 类 大 型 数据 库 的 数据 。 


2. 神经 网 络 方法 

神经 网 络 以 其 分 布 式 存储 .并行 协同 处 理 以 及 自学 习 等 特性 被 用 于 聚 类 分 析 领 域 。 
神经 网 络 方法 将 每 个 簇 都 描述 为 一 个 标本 ,标本 作为 聚 类 的 原型 不 一 定 对 应 一 个 特定 
的 数据 实例 或 对 象 。 在 进行 聚 类 时 ,新 的 对 象 通过 与 标本 的 比较 而 被 分 配 到 最 相似 的 
篮 , 复 中 的 对 象 的 属性 可 以 根据 标本 的 属性 来 预测 。 在 聚 类 分 析 中 经 常 被 用 到 的 神经 
网 络 的 方法 有 三 个 : Kohonen 自 组 织 神经 网 络 、 竞 争 神经 网 络 以 及 自 组 织 共 振 神 经 网 
络 等 。 这 些 方法 都 涉及 竞争 的 神经 单元 。 兖 争 学 习 (Competitive Learning) 采 用 了 若干 
个 单元 的 层次 结构 ,它们 以 一 种 “ 胜 者 全 取 ” 的 方式 对 系统 当前 处 理 的 对 象 进行 苋 争 。 
在 一 个 簇 中 获胜 的 单元 成 为 活跃 的 ,而 其 他 单元 是 不 活跃 的 。 各 层 之 间 的 连接 是 激发 
式 的 , 即 在 某 个 给 定 层次 中 的 单元 可 以 接收 来 自 低 一 层次 所 有 单元 的 输入 。 在 一 层 中 
活动 单元 的 布局 代表 了 高 一 层 的 输入 模式 。 在 某 个 给 定 层次 中 ,一 个 簇 中 的 单元 彼此 
将 争 , 对 低 一 层 的 输出 模式 做 出 反应 。 一 个 层次 内 的 联系 是 抑制 式 的 ,以 便 在 任何 簇 
中 只 有 一 个 单元 是 活跃 的 。 获 胜 的 单元 修正 它 与 簇 中 其 他 单元 连接 上 的 权重 ,以 便 未 
来 它 能 够 对 与 当前 对 象 相 似 或 一 样 的 对 象 做 出 较 强 的 反应 。 如 果 将 权重 看 作 定 义 的 
一 个 标本 ,那么 新 的 对 象 被 分 配给 具有 最 近 标 本 的 徐 。 结 果 复 的 数目 和 每 个 复 中 单元 
的 数目 是 输入 参数 。 

在 聚 类 过 程 结 束 时 ,每 个 篮 可 以 被 看 作 一 个 新 的 “特征 ”, 它 检测 对 象 的 某 些 规律 性 。 这 
样 产生 的 结果 簇 可 以 被 看 作 一 个 底层 特征 向 高 层 特征 的 映射 。 神 经 网 络 聚 类 方法 与 实际 的 
大 脑 处 理 有 很 强 的 理论 联系 。 由 于 较 长 的 处 理 时 间 和 数据 的 复杂 性 ,需要 进行 进一步 的 研 
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究 来 使 它 适 用 于 大 型 数据 库 。 

3. 基于 群 的 聚 类 方法 

基于 群 的 聚 类 方法 是 进化 计算 的 一 个 分 支 。 在 生物 界 中 , 蚊 群 . 鱼 群 和 乌 群 在 更 食 或 逃 
避 敌 人 时 的 行为 主要 分 为 两 类 : 一 类 是 蚁 群 算法 或 蚁 群 优化 (Ant Colony Optimization. 
ACO) ,这 是 将 数据 挖掘 概念 和 原理 与 生物 界 中 蚁 群 行为 结合 起 来 形成 的 新 算法 。 受 生物 
进化 机 理 的 启发 ,1991 年 意大利 学 者 A. Dorigo 等 人 提出 了 一 种 新 型 的 优化 方法 一 一 蚁 群 
算法 。 目 前 ,基于 蚁 群 算法 的 聚 类 方法 从 原理 上 可 以 分 为 四 种 : 运用 蚂蚁 竟 食 的 原理 ,利用 
信息 素来 实现 聚 类 ;利用 蚂蚁 自我 聚集 行为 来 聚 类 ;基于 蚂蚁 堆 的 形成 原理 实现 数据 聚 类 ; 
运用 蚁 梨 分 类 模型 ,利用 蚂蚁 化 学 识别 系统 进行 聚 类 。 改 群 聚 类 算法 的 灵活 性 、 健 壮 性 、 分 
布 性 和 自 组 织 性 等 特征 ,使 其 非常 适合 本 质 上 是 分 布 ,动态 及 又 要 交错 的 问题 求解 中 ,解决 
无 监督 的 聚 类 问题 。 另 一 类 称 为 粒子 群 算法 (Particle Swarm Optimization, PSO) ,也 是 模 
拟 了 鱼 群 或 鸟 群 的 行为 。PSO 将 群 中 的 个 体 称 为 particles ,整个 群 称 为 swarm。 要 将 其 应 
用 到 实际 的 大 规模 数据 挖掘 的 聚 类 分 析 中 还 需要 做 大 量 的 研究 工作 。 


6.3 ”应 用 聚 类 分 析 方 法 


6.3.1 k-means 聚 类 方法 


1, k-means 算法 模型 

k-means 算法 接受 输入 量 上 ,然后 将 n 个 数据 对 象 划 分 为 & 个 聚 类 以 便 使 所 获得 的 聚 类 
满足 : 同一 聚 类 中 的 对 象 相似 度 较 高 ,而 不 同 聚 类 中 的 对 象 相似 度 较 小 。 聚 类 相似 度 是 利 
用 各 聚 类 中 对 象 的 均值 所 获得 一 个 “中 心 对 象 ” 引 力 中 心 ) 来 进行 计算 的 。 

k-means 算法 的 工作 过 程 说 明 如 下 : 首先 从 个 数据 对 象 任意 选择 k 个 对 象 作为 初始 
聚 类 中 心 ; 而 对 于 所 剩 下 其 他 对 象 , 则 根据 它们 与 这 些 聚 类 中 心 的 相似 度 ( 距 离 ) ,分别 将 它 
们 分 配给 与 其 最 相似 的 聚 类 中 心 所 代表 的 聚 类 ;然后 再 计算 每 个 所 获 新 聚 类 的 聚 类 中 心 (该 
聚 类 中 所 有 对 象 的 均值 ); 不 断 重 复 这 一 过 程 直到 标准 测度 函数 开始 收敛 为 止 。 一 般 都 采用 
均 方差 作为 标准 测度 函数 , 即 准 则 函数 。k 个 聚 类 具有 以 下 特点 : 各 聚 类 本 身 尽 可 能 地 紧 
E ,而 各 聚 类 之 间 尽 可 能 地 分 开 。 样 本 点 分 类 和 聚 类 中 心 的 调整 是 迭代 交替 进行 的 两 个 


k-means 算法 描述 : 

输入 : 聚 类 个 数 k, 以 及 包含 个 数据 对 象 的 数据 库 

输出 : 满足 方差 最 小 标准 的 & 个 聚 类 

处 理 流程 : 
Step] 从 个 数据 对 象 任意 选择 & 个 对 象 作为 初始 聚 类 中 心 ; 
Step2 ”根据 徐 中 对 象 的 平均 值 , 将 每 个 对 象 重新 赋 给 最 类 似 的 簇 ; 
Step3 ”更 新 簇 的 平均 值 , 即 计算 每 个 入 中 对 象 的 平均 值 ; 
Step4 循环 Step2 到 Step3 直到 每 个 聚 类 不 再 发 生变 化 为 止 。 
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定义 6.1 两 个 数据 对 象 间 的 距离 。 
(1) 明 氏 距离 (Minkowski Distance): 
b 
dlzi) = (X) | za — za It)" (6.1) 
k=1 
这 里 的 zx; 二 (xn， Tzs etts Lip) FI B= Cae was yip ) 是 两 个 p 维 的 数据 对 象 并 且 
1 和 天) 。 
(2) BK EG HRS (Euclidean Distance) : 
当 明 氏 距离 中 q=2 时 ,公式 (6.1) 即 欧 氏 距离 。 
p 
derisa) = (>) | £a — za 12)” (6. 2) 
k= 
(3) 马 氏 距离 (Mahalanobis Distance): 
= Cp (6. 3) 


其 中 , oy = Sn Ti) (ay —Tj vig G=1y 2, p MD)” FFE, 则 马 氏 距离 为 


dylara) = (2; — z) D) (az; — 2) (6.4) 
(4) 兰 氏 距离 (Canberra Distance): 
| 2 | te — Xp | 
dana) = rao a (6.5) 
定义 6.2 HEMI PRA E 
k 
E = X| Sd’(z,z) (6. 6) 


i=l zECi 

设 待 聚 类 的 数据 集 为 X= (ts tran) ,将 其 划分 为 个 艇 C, HEDA xz;, 即 
zi HIC: 的 中 心 (i 二 1,，2,…,k)。 玉 是 所 有 对 象 的 平方 误差 的 总 和 ,xzEX 是 空间 中 的 点 ， 
d(x, i) 为 点 x 与 x; 间 的 距离 ,可 以 利用 明 氏 、 欧 氏 、 马 氏 或 者 兰 氏 距离 求 得 。 

2. 算法 实例 

设 有 数据 样本 集合 为 X=={1, 5, 10, 9, 26, 32, 16, 21, 14} ,将 X 聚 为 3 类 , 即 & 一 3。 随 
机 选择 前 三 个 数值 为 初始 的 聚 类 中 心 , 即 =) = 1 二 5,zs 二 10。( 采 用 欧 氏 距离 进行 计算 ,) 

第 一 次 迭代 : 按照 三 个 聚 类 中 心 将 样本 集合 分 为 三 个 簇 {1},{5),{10, 9, 26, 32, 16, 
21, 14} 。 对 于 产生 的 簇 分 别 计算 平均 值 , 得 到 平均 值 点 填 和 人 第 2 步 的 zi ,zi ,zs 栏 中 。 

第 二 次 迭代 : 通过 平均 值 调整 对 象 所 在 的 簇 ,重新 聚 类 。 即 将 所 有 点 按 距离 平均 值 点 
1,5,18. 3 最 近 的 原则 重新 分 配 , 得 到 三 个 新 的 徐 : {1)},{5, 10, 9}.{26, 32, 16, 21, 14}, 
填 入 第 2 步 的 Ci,Cz ,Cs 栏 中 。 重 新 计算 簇 平均 值 点 ,得 到 新 的 平均 值 点 为 1,8,21. 8。 

以 此 类 推 , 第 五 次 迭代 时 ,得 到 的 三 个 簇 与 第 四 次 迭代 的 结果 相同 ,而 且 准 则 函数 EE 收 
SM ,迭代 结束 。 结 果 如 表 6. 1 所 示 。 


6.3.2 k-medoids BAF 


1. k-medoids 算法 模型 
围绕 中 心 的 划分 (Partitioning Around Medoid, PAM) 是 最 早 提出 的 k-medoids 算法 之 
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表 6.1 k-means 聚 类 算法 


步骤 zı Ze z3 CQ Ca E 
1 1 5 10 {1} » 9, 26, 32, 16, 21, 14} 433. 43 
2 1 5 18.3 {1} 26, 32, 16, 21, 14} 230.8 
3 1 8 21.8 {1} {5, 10, 9, 14} (26,32, 16, 21} 181. 76 
4 1 9.5 | 23.8 {1, 5} | {10, 9, 14, 16} s 32, 21} 101. 43 
5 3 12:3 | 26.3 {1, 5} | {10, 9, 14, 16} yale 21} 101. 43 


一 , 它 选用 簇 中 位 置 最 中 心 的 对 象 作 为 代表 对 象 ,试图 对 个 对 象 给 出 & 个 划分 。 代 表 对 象 
也 被 称 为 中 心 点 ,其 他 对 象 则 被 称 为 非 代表 对 象 。 最 初 随机 选择 & 个 对 象 作 为 中 心 点 ,然后 
反复 地 用 非 代 表 对 象 来 代替 代表 对 象 , 试 图 找 出 更 好 的 中 心 点 ,以 改进 聚 类 的 质量 。 在 每 次 
迭代 中 ,所 有 可 能 的 对 象 对 被 分 析 ,每 个 对 中 的 一 个 对 象 是 中 心 点 ,而 另 一 个 是 非 代 表 对 象 。 
对 可 能 的 各 种 组 合 ,估算 聚 类 结果 的 质量 。 一 个 对 象 0; 可 以 被 使 最 大 平方 误差 值 
E( 计 算 方 法 如 公式 6.6 At AS) wD AY TRACE. TE UR EAC Hr AE AY Be ET RE A MRA TF 
一 次 迭代 的 中 心 点 。 

为 了 判定 一 个 非 代 表 对 象 O 是 否 是 当前 一 个 代表 对 象 O 的 好 的 代替 ,对 于 每 一 个 
非 中 心 点 对 象 0; ,下 面 的 四 种 情况 被 考虑 : 第 一 种 情况 : 假设 O BK OO, 代替 作为 新 的 中 
心 点 ,O; 当前 隶属 于 O;。 如 果 O 离 某 个 中 心 点 O, HUE. i Am, IA O 被 重新 分 配给 
0O,; 第 二 种 情况 : 假设 O; 被 0 代替 作为 新 的 中 心 点 ,O; 当前 隶属 于 O. WR O 离 这 个 
新 的 中 心 点 O, GE. IBA O 被 重新 分 配给 O, ;第 三 种 情况 : 假设 O 被 O, 代替 作为 新 的 
中 心 点 ,但 是 O; 当前 隶属 于 另 一 个 中 心 点 对 象 Onim, UW O; 依然 离 On 最 近 , 那 对 
象 的 隶属 不 发 生变 化 ;第 四 种 情况 : 假设 O 被 0; 代替 作为 新 的 中 心 点 ,但 是 O; 当前 隶 
属于 另 一 个 中 心 点 对 象 0, i Am, WO, 离 这 个 新 的 中 心 点 O 最 近 ,那么 O; 被 重新 分 
配给 O, 。 

每 当 重 新 分 配 发 生 时 ,E 所 产生 的 差别 对 代价 函数 会 有 影响 。 因 此 ,如 果 一 个 当前 的 中 
心 点 对 象 被 非 中 心 点 对 象 所 代替 ,代价 函数 计算 EE 所 产生 的 差别 。 替 换 的 总 代价 是 所 有 非 
中 心 点 对 象 所 产生 的 代价 之 和 。 如 果 总 代价 是 负 的 ,那么 实际 的 玉 将 会 减少 ,O; 可 以 被 0， 
替代 。 如 果 总 代价 是 正 的 , 则 当前 的 中 心 点 O; 被 认为 是 可 以 接受 的 ,在 本 次 迭代 中 没有 变 
化 。 总 代价 定义 如 下 : 


ICs = S'O (6.7) 
j=l 


其 中 Ci 表示 O; 被 O 替代 后 产生 的 代价 。 
在 PAM 算法 中 ,可 以 把 过 程 分 为 两 个 步骤 : 


(1) 建立 : 随机 寻找 上 个 中 心 点 作为 初始 的 簇 中 心 点 。 
(2) 交换 : 对 于 所 有 可 能 的 对 象 对 进行 分 析 , 找 到 交换 后 可 以 使 平方 误差 值 已 减少 的 
对 象 , 代 替 原 中 心 点 。 
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k-medoids 算法 描述 : 
输入 : 聚 类 个 数 A, 以 及 包含 2 个 数据 对 象 的 数据 库 
输出 : 满足 方差 最 小 标准 的 & 个 聚 类 
处 理 流程 
Step] 从 7 个 数据 对 象 任 意 选 择 & 个 对 象 作为 初始 簇 中 心 点 ; 
Step2 ”指派 每 个 剩余 的 对 象 给 离 它 最 近 的 中 心 点 所 代表 的 簇 ; 
Step3 ”选择 一 个 未 被 选择 的 中 心 点 对 象 O;; 
Step4 选择 一 个 未 被 选择 过 的 非 中 心 点 对 象 O,; 
StepS 计算 用 O, BRO: 的 总 代价 并 记录 在 集合 S 中 ; 
Step6 循环 Step4 到 Step5 直到 所 有 的 非 中 心 点 都 被 选择 过 ; 
Step? ”循环 Step3 到 Step6 直到 所 有 的 中 心 点 都 被 选择 过 ; 
Step8 正在 S 中 的 所 有 非 中 心 点 代替 所 有 中 心 点 后 计算 出 的 总 代价 有 小 于 0 的 
存在 ,THEN 找 出 S 的 中 心 点 ,形成 一 个 新 的 个 中 心 点 的 集合 ; 
Step9 循环 Step3 到 Steps 直到 没有 再 发 生 簇 的 重新 分 配 , 即 S 中 所 有 的 元 素 都 
KF 0. 


2. 算法 实例 
假如 空间 中 的 五 个 点 {A,，B, C, D, E ,各 点 之 间 的 距离 关系 如 表 6. 2 所 示 , 根 据 所 给 
的 数据 对 其 运行 PAM 算法 实现 聚 类 划分 ( 设 k=2)。 
表 6.2 样本 点 间距 离 


样本 点 E 
A 3 
B 0 
c 


数据 来 源 : 参考 文献 [65] 


算法 执行 步骤 如 下 : 

第 一 步 建立 阶段 : 设 从 5 个 对 象 中 随机 抽取 的 2 个 中 心 点 为 {(A, B), 则 样本 被 划分 为 
{A, C, D} 和 {B, E}( 点 C 到 点 A 与 点 B 的 距离 相同 , 均 为 2, 故 随机 将 其 划 入 A 中 , 同 理 ， 
KA ERJA BH). 

第 二 步 交换 阶段 : 假定 中 心 点 A,B 分 别 被 非 中 心 点 4C，D, E) 替换 ,根据 PAM 算法 
需要 计算 下 列 代价 TCac，TCap，TCag，TCsc，TCep，TCsg。 其 中 TCac 表 示 中 心 点 A 被 非 中 
心 点 C 代替 后 的 总 代价 。 下 面 以 TCac 为 例 说 明 计算 过 程 。 

oy A BEC 替换 以 后 ,看 各 对 象 的 变化 情况 。 

d) A: A 不 再 是 一 个 中 心 点 ,C 称 为 新 的 中 心 点 ,因为 A 高 B 比 A 离 C 近 ,A 被 分 配 
到 BB 中 心 点 代表 的 簇 ， 属于 上 述 第 一 种 TROL. Casc=d(A, B)—d(A, A)=1—0=1, 

(2) B: B 不 受 影 响 , 属 于 上 面 的 第 三 种 情况 。Caac 王 0。 

G) C: C 原先 属于 A 中 心 点 所 在 的 艇 , 当 A 被 C 替换 以 后 ,C 是 新 中 心 点 ,属于 上 面 
HEARE. Coac= d(C, C)—d(A, C)=0—-2=—2, 
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(4) D: D 原先 属于 A 中 心 点 所 在 的 簇 , 当 A 被 C 替换 以 后 , 离 D 最 近 的 中 心 点 是 C， 
属于 上 面 的 第 二 种 情况 。Cpac = 二 4(D, C) 一 4(D, A)=1—2=~—1, 

(5) E: EE 原先 属于 B 中 心 点 所 在 的 簇 , 当 A 被 C 替换 以 后 , 离 D 最 近 的 中 心 点 仍然 是 
B, 属 于 上 面 的 第 三 种 情况 。Ceac 二 0。 

因此 ,TCAc 王 CaAac 上 CeAc t Ceac | Cpac | Crac =1 +0 2 1+0= 2。 同 理 ,可 以 计算 
出 TCap 二 一 2,TCag 一 一 1,TCgc 王 一 2，,TCep 王 一 2,TCss 一 一 2。 在 上 述 代价 计算 完毕 后 ， 
我 们 要 选取 一 个 最 小 的 代价 ,显然 有 多 种 替换 可 以 选择 ,选择 第 一 个 最 小 代价 的 替换 (也 就 
是 A 替换 C) ,这 样 ,样本 被 重新 划分 为 {A, B. EAC, DAAI. 通过 上 述 计算 ,已 经 完 
成 了 PAM 算 法 的 第 一 次 迭代 。 在 下 一 次 迭代 中 ,将 用 其 他 的 非 中 心 点 {A, D, E} 替 换 中心 
点 {B,C}, 找 出 具有 最 小 代价 的 蔡 换 。 一 直 重 复 上 述 过 程 ,直到 代价 不 再 减少 为 止 。 


6.3.3 AGNES 聚 类 方法 


1. AGNES 算法 模型 

AGNES 算法 是 凝聚 的 层次 聚 类 方法 。AGNES 算法 最 初 将 每 个 对 象 作为 一 个 徐 , 然 后 
这 些 艇 根据 某 些 准 则 被 一 步 步 地 合并 。 例 如 ,如 果 簇 C 中 的 一 个 对 象 和 簇 C 中 的 一 个 对 
象 之 间 的 距离 是 所 有 属于 不 同 簇 的 对 象 间距 离 最 小 的 ,C! 和 C 可 能 被 合并 。 这 是 一 种 单 
链接 方法 ,其 每 个 复 可 以 被 复 中 所 有 对 象 代 表 ,两 个 篮 间 的 相似 度 由 这 两 个 不 同 复 中 距离 最 
近 的 数据 点 对 的 相似 度 来 确定 。 聚 类 的 合并 过 程 反复 进行 直到 所 有 的 对 象 最 终 合 并 形成 一 
个 艇 。 在 聚 类 中 ,用 户 能 定义 希望 得 到 的 簇 数 目 作 为 一 个 结束 条 件 。 


AGNES 算法 描述 : 
输入 : 包含 个 数据 对 象 的 数据 库 ,终止 条 件 簇 的 数目 上 
输出 ; 达到 终止 条 件 规定 的 有 个 入 
处 理 流程 : 
Step] 将 每 个 对 象 当 成 一 个 初始 艇 ; 
Step2 ”根据 两 个 徐 中 最 近 的 数据 点 找到 最 近 的 两 个 簇 ; 
Step3 合并 两 个 簇 ,生成 新 的 簇 的 集合 ; 
Step4 循环 Step3 到 Step4 直到 达到 定义 的 簇 的 数目 。 


2. 算法 实例 
下 面 给 出 一 个 样本 事物 数据 库 ,如 表 6. 3 所 示 ,并 对 它 实施 AGNES 算法 。 
表 6.3 样本 事务 数据 库 


数据 来 源 : 参考 文献 [65] 
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在 所 给 的 数据 集 上 运行 AGNES 算法 ,算法 的 执 和 pe 4 所 示 , 设 2 一 8, 用 户 输 
AMZ ILA EAI AG . WEH). {2}. {3}. {4} ,15) ,16} ,17} ,18)}。( 采 用 欧 氏 距离 进 
行 计算 。) 


表 6.4 AGNES 算法 执行 过 程 


步 又 最 近 的 簇 距离 最 近 的 两 个 簇 合并 后 的 新 入 

1 1 {1},{2} {1, 2}5{3}5{4}5{5}5{6}.47}5{8} 
2 1 {3} {4} {15-2} 51354) (Shs 16} 07} 5 18); 
3 1 {5} {6} {1, 2},43, 4},45, 6},{7}, {8} 

4 1 {7} {8} {15 2)543s.. 4} 5 {55 Oho {75 8} 

5 1 {1, 2},13, 4} {1, 2, 3, 4},{5, 6},{7, 8} 

6 1 {5, 6},47, 8} {1, 2, 3, 4},{5, 6, 7, 8345 
具体 步 又 如 下 : 

(1) 根据 初始 复 计 算 每 个 复 之 间 的 距离 ,随机 找 出 距离 最 小 的 两 个 复 ,进行 合并 。 


2 间 的 欧 氏 距离 CC(1，2) 一 [(1 一 1)2 十 (2 一 1)2]22 apai hna pi ay 
AIR 

(2) KE — We IP Je W PEI IE HE E AS. FR Se BY DA Se UE 7 AOE. A IF 
后 3、4 MAR 

(3) 重复 第 (2) 步 的 工作 ,5、6 点 成 为 一 簇 。 

i ola pr he eee 

(5) AF1, 2}.{3, 4}) 成 为 一 个 包含 四 个 点 的 簇 。 

a. ,(7，8} ,由 于 合并 后 的 能 的 数目 已 经 达到 了 终止 条 件 ,计算 完毕 


6.3.4 DIANA 聚 类 方法 


1. DIANA 算法 模型 

DIANA 算法 属于 分 裂 的 层次 聚 类 。 与 凝聚 的 层次 聚 类 相反 , 它 采用 一 种 自 顶 向 下 的 
策略 , 它 首 先 将 所 有 对 象 置 于 一 个 簇 中 ,然后 逐渐 细 分 为 越 来 越 小 的 复 ,直到 每 个 对 象 自 成 
一 复 ,或 者 达到 了 某 个 终结 条 件 , 例 如 达到 了 某 个 希望 的 复数 目 ,或 者 两 个 最 近 复 之 间 的 距 
离 超过 了 某 个 阔 值 。 

在 DIANA 方法 处 理 过 程 中 ,所 有 的 对 象 初始 都 放 在 一 个 簇 中 。 根 据 一 些 原则 (如 簇 中 
最 临近 对 象 的 最 大 欧式 距离 ) ,将 该 簇 分 裂 。 簇 的 分 裂 过 程 反 复 进行 ,直到 最 终 每 个 新 的 簇 
只 包含 一 个 对 象 。 

在 聚 类 中 ,用户 能 定义 希望 得 到 的 复数 目 作为 一 个 结束 条 件 。 同 时 , 它 使 用 下 面 两 种 测 
度 方 法 。 

(1) FRA ELE: 在 一 个 簇 中 的 任意 两 个 数据 点 都 有 一 个 距离 (如 欧 氏 距离 ), 这 些 距 离 
中 的 最 大 值 是 簇 的 直径 。 
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(2) 平均 相 异 度 ( 平 均 距 离 ): 


dz;C) =~ dr,y) (6. 8) 


m 1 Ee 


其 中 : diu ORRA x EIRC 中 的 平均 相 异 度 ,n RC PASZ da, y) H 
点 工 与 点 y 之 间 的 距离 (如 欧式 距离 )。 


DIANA 算法 描述 : 
输入 : 包含 个 数据 对 象 的 数据 库 ,终止 条 件 簇 的 数目 
输出 : 达到 终止 条 件 规定 的 & 个 簇 
处 理 流程 : 
Step] 将 所 有 对 象 整个 当成 一 个 初始 复 ; 
Step2 ”在 所 有 艇 中 挑 出 具有 最 大 直径 的 复 ; 
Step3 ” 找 出 所 挑 复 里 与 其 他 点 平均 相 异 度 最 大 的 一 个 点 放 和 人 splinter group, $) 
余 的 放 入 old party 中 ; 
Step4 FE old party 里 找 出 到 splinter group 中 点 的 最 近 距 离 不 大 于 到 old party 
中 点 的 最 近 距 离 的 点 ,并 将 该 点 加 入 splinter group; 
Step5 ”循环 Step2 到 Step4 直到 没有 新 的 old party 的 点 分 配给 splinter group; 
Step6 splinter group 和 old party 为 被 选中 的 簇 分 裂 成 的 两 个 簇 ,与 其 他 簇 一 起 
组 成 新 的 簇 集合 。 


2. 算法 实例 

针对 上 一 节 的 样本 事务 数据 库 ( 参 见 表 6. 3) ,实施 AGNES 算法 。 对 所 给 的 数据 进行 
DIANA 算法 ,算法 的 执行 过 程 如 表 6. 5 所 示 , 设 2 一 8, 用 户 输入 的 终止 条 件 为 两 个 徐 。 初 
始 艇 为 {1, 2, 3, 4, 5, 6, 7, 8}. 


#6.5 DIANA 算法 执行 过 程 


步骤 具有 最 大 直径 的 簇 splinter group old party 

1 {1, 2, 3,45 55 6, 7, 8} {1} {2, 3,45 5, 6, 7, 8} 
2 {1, 2, 3, 4, 5, 6, 7, 8} {1, 2} {3, 4, 5, 6, 7, 8} 
3 {1, 25 35 45 55 6,7, 8} fl> 2, 3} {14, 5, 6, 7, 8} 

4 {1,2, 3, 4, 5» 6, 7, 8} {1, 25 3, 4} {5, 6, 7, 8} 

5 {1, 2,3, 4, 5, 6, 7, 8} (15; 2,-3.4} {5, 6, 7, 8} 终 止 
具体 步骤 如 下 : 


(1) 找到 具有 最 大 直径 的 秘 , 对 簇 中 的 每 个 点 计算 平均 相 异 度 ( 假 定 采 用 的 是 欧式 距 
离 )。 点 1 的 平均 距离 为 (1 十 1 十 1. 414 十 3. 6 十 4. 244+-4.474+5)/7=2. 96, 点 2 的 平均 距离 
为 (1 十 1. 414 十 1 十 2. 828 十 3.6 十 3. 6 十 4. 24)/7=2. 526, 点 3 的 平均 距离 为 
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(1 十 1. 414 十 1 十 3. 16 十 4.12 十 3. 6 十 4. 47)/7=2. 68,5 4 的 平均 距离 为 (1. 414 十 1 十 1 十 2. 24+ 
3. 16 十 2.828 十 3. 6)/7 王 2.18, 点 5 的 平均 距离 为 2.18, 点 6 的 平均 距离 为 2. 68, 点 7 的 平 
均 距 离 为 2.526, 点 8 的 平均 距离 为 2.96。 这 时 挑 出 平均 相 异 度 最 大 的 点 1 放 到 splinter 
group 中 ,剩余 点 在 old party 中 。 

(2) 在 old party 里 找 出 到 splinter group 中 的 最 近 的 点 的 距离 不 大 于 到 old party 中 最 
近 的 点 的 距离 的 点 ,将 该 点 放 入 splinter group 中 ,该 点 是 2。 

(3) 重复 第 (2) 步 的 工作 ,在 splinter group 中 放 入 点 3。 

(4) 重复 第 (2) 步 的 工作 ,在 splinter group 中 放 入 点 4。 

(5) 没有 新 的 old party 中 的 点 分 配给 splinter group,; 此 时 分 裂 的 簇 数 为 2, 达 到 终止 条 
件 。 如 果 没 有 到 终止 条 件 , 下 一 阶段 还 会 从 分 裂 好 的 复 中 选 一 个 直径 最 大 的 簇 按 刚才 的 分 
裂 方法 继续 分 裂 。 


6.3.5 DBSCAN 聚 类 方法 


1. DBSCAN 算法 模型 

DBSCAN 是 一 个 比较 有 代表 性 的 基于 密度 的 聚 类 算法 。 与 划分 和 层次 聚 类 方法 不 同 ， 
它 将 簇 定义 为 密度 相连 的 点 的 最 大 集合 ,能 够 把 具有 足够 高 密度 的 区 域 划 分 为 簇 ,并 可 在 有 
“噪声 ”的 空间 数据 库 中 发 现任 意 形状 的 聚 类 。 

下 面 首 先 介绍 关于 密度 聚 类 涉及 的 一 些 定义 。 

定义 6.3 HRW ce Bk: 给 定 对 象 在 半径 e 内 的 区 域 。 

定义 6.4 核心 对 象 : 如 果 一 个 对 象 的 s 邻 域 至 少 包含 MinPts 个 对 象 , 则 称 该 对 象 为 
核心 对 象 。 

定义 6.5 直接 密度 可 达 : 给 定 一 个 对 象 集 合 D WMR p 是 在 q We 邻 域内 ,而 9 是 一 
个 核心 对 象 , 则 对 象 p 从 对 象 q 出 发 是 直接 密度 可 达 的 。 

定义 6.6 间接 密度 可 达 的 : 如 果 存 在 一 个 对 象 链 pis ps，… ,ps， Pi =q, p= p Xt 
pi:ED,1 过 i<n, pin1 是 从 p: 关于 es 和 MitPts 直接 密度 可 达 的 , 则 对 象 p 是 从 对 象 g 关于 
e Al MinPts 密度 可 达 的 ,例如 ,已 知 半径 @ ,IMitPis,g 是 一 个 核心 对 象 ,pi 是 从 g 关于 e 和 
MitPts 直接 密度 可 达 的 , 若 p 是 从 pi 关于 se 和 MitPts 直接 密度 可 达 的 , 则 对 象 p 是 从 g 
关于 e 和 MitPts 间接 密度 可 达 的 。 

定义 6.7 密度 相连 的 : 如 果 对 象 集合 D 中 存在 一 个 对 象 o, 使 得 对 象 p 和 g 是 从 o K 
Fe 和 MitPts 密度 可 达 的 ,那么 对 象 和 g 是 关于 s Fl MinPts 密度 相连 的 。 

定义 6.8 噪声 : 一 个 基于 密度 的 簇 是 基于 密度 可 达 性 的 最 大 的 密度 相连 对 象 的 集合 。 
不 包含 在 任何 簇 中 的 对 象 被 认为 是 “噪声 ”。 

DBSCAN 通过 检查 数据 集中 每 个 对 象 的 s 邻 域 来 寻找 聚 类 。 如 果 一 个 点 p 的 e 邻 域 
包含 多 于 MinPts 个 对 象 , 则 创建 一 个 p 作为 核心 对 象 的 新 徐 。 然 后 ,DBSCAN 反复 地 寻找 
从 这 些 核心 对 象 直 接 密度 可 达 的 对 象 ,这 个 过 程 可 能 涉及 一 些 密度 可 达 簇 的 合并 。 当 没有 
新 的 点 可 以 被 添加 到 任何 簇 时 ,该 过 程 结束 。 
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DBSCAN 算法 描述 : 


处 理 流程 : 


Step2 
个 簇 ; 
Step3 


输入 : 包含 nn 个 数据 对 象 的 数据 库 ,半径 e- 
输出 : 所 有 达到 密度 要 求 的 簇 


Step] ”从 数据 库 中 抽取 一 个 未 处 理 的 点 ; 
IF 抽出 的 点 是 核心 点 THEN 找 出 所 有 从 该 点 密度 可 达 的 对 象 ,形成 一 


局 人 小 
最 少 


ELSE 抽出 的 点 是 边缘 点 ( 非 核心 对 象 ) ,跳出 本 次 循环 ,寻找 下 一 个 点 ; 
Step4 循环 Stepl 到 Step3 直到 所 有 点 都 被 处 理 。 


数目 MinPts 


2. 算法 实例 


下 面 给 出 一 个 样本 事务 数据 库 ,如 表 6. 6 所 示 ,并 对 它 实 施 DBSCAN 算法 。 


表 6.6 样本 事务 数据 库 


序号 属性 1 属性 2 序号 属性 1 属性 2 
1 1 0 7 4 1 
2 1 0 8 5 1 
3 0 1 9 0 2 
1 1 1 10 1 2 
5 2 1 11 1 2 
6 3 1 12 1 3 


数据 来 源 : 参考 文献 [65] 


对 所 给 的 数据 进行 DBSCAN 算法 ,算法 执行 过 程 如 表 6.7 所 示 , 设 ?一 12,e 一 1， 


MinPts=4, 
表 6.7 DBSCAN 算法 执行 过 程 

步 又 选择 的 点 在 e 中 点 的 个 数 通过 计算 可 达 点 而 找到 的 新 簇 
1 1 2 无 

2 2 2 无 

3 3 3 无 

4 4 5 fH Ci:{1, 3, 4, 5, 9, 10, 12} 
5 5 3 已 在 一 个 复 Ci 中 

6 6 3 无 

7 7 5 E Co :{2.6,7,8,11} 

8 8 2 已 在 一 个 徐 Cz 中 

9 9 3 已 在 一 个 簇 Ci 中 

10 10 4 已 在 一 个 簇 Ci 中 

11 11 2 EBETi Cs 中 

12 12 2 CeE-ME CF 


聚 出 的 类 为 {1，3, 4, 5,9, 10, 12},{2, 6, 7, 8, 11}。 具 体 步 又 如 下 : 

(1) 在 数据 库 中 选择 一 点 1, 由 于 在 以 它 为 圆心 的 ,以 1 为 半径 的 圆 内 包含 2 个 点 (小 于 
MinPts) ,因为 它 不 是 核心 点 ,选择 下 一 个 点 。 

(2) 在 数据 库 中 选择 一 点 2, 由 于 在 以 它 为 圆心 的 ,以 1 为 半径 的 圆 内 包含 2 个 点 ,因此 
它 不 是 核心 点 ,选择 下 一 个 点 。 

(3) 在 数据 库 中 选择 一 点 3, 由 于 在 以 它 为 圆心 的 ,以 1 为 半径 的 圆 内 包含 3 个 点 ,因此 
它 不 是 核心 点 ,选择 下 一 个 点 。 

(4) 在 数据 库 中 选择 一 点 4, 由 于 在 以 它 为 圆心 的 ,以 1 为 半径 的 圆 内 包含 5 个 点 (大 于 
MinPts) ,因此 它 是 核心 点 ,寻找 从 它 出 发 可 达 的 点 (直接 可 达 4 个 ,间接 可 达 3 个 ) ,得 出 新 
类 为 {1，3, 4, 5,，9，10，12} ,选择 下 一 个 点 。 

G) 在 数据 库 中 选择 一 点 5, 已 经 在 得 1 中 ,选择 下 一 个 点 。 

(6) 在 0 数据库 中 选择 一 点 6, 由 于 在 以 它 为 圆心 的 ,以 1 为 半径 的 圆 内 包含 3 个 点 , 因 
此 它 不 是 核心 点 ,选择 下 一 个 点 。 

(7) 在 数据 库 中 选择 一 点 7, 由 于 在 以 它 为 圆心 的 ,以 1 为 半径 的 圆 内 包含 5 个 点 ,因此 
它 是 核心 点 寻找 从 它 出 发 可 达 的 点 ,得 出 新 类 为 {2, 6, 7. 8, 11) ,选择 下 一 个 点 。 

(8) 在 数据 库 中 选择 一 点 8, 已 经 在 簇 2 中 ,选择 下 一 个 点 。 

(9) 在 数据 库 中 选择 一 点 9, 已 经 在 得 1 中 ,选择 下 一 个 点 。 

(10) 在 数据 库 中 选择 一 点 10, 已 经 在 徐 1 中 ,选择 下 一 个 点 。 

(11) 在 数据 库 中 选择 一 点 11, 已 经 在 复 2 中 ,选择 下 一 个 点 。 

(12) 选择 点 12, 已 经 在 复 1 中 ,由 于 这 已 经 是 最 后 一 点 (所 有 点 都 已 处 理 ) ,计算 完毕 。 


6.4 小 结 


聚 类 分 析 作 为 一 种 非常 重要 的 数据 挖掘 模型 ,在 很 多 领域 都 有 广泛 应 用 ,本 章 对 聚 类 方 
法 的 基本 理论 .常见 分 类 做 出 详细 说 明 ,主要 描述 了 基于 划分 的 聚 类 方法 .基于 层次 的 聚 类 
方法 .基于 密度 的 聚 类 方法 、 基 于 网 格 的 聚 类 方法 和 基于 模型 的 聚 类 方法 。 同 时 详细 介绍 了 
五 种 聚 类 方法 (包括 k-means, k-mediods, AGNES, DIANA 以 及 DBSCAN 算法 ) 的 算法 模 
型 及 实例 应 用 。 


. 解释 聚 类 分 析 的 含义 。 

. 描述 基于 划分 的 聚 类 方法 。 
. 描述 基于 层次 的 聚 类 方法 。 
. 描述 基于 密度 的 聚 类 方法 。 
. 描述 基于 网 格 的 聚 类 方法 。 
. 描述 基于 模型 的 聚 类 方法 。 


~ 
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党 7 章 HESSD aS MFA 


Ea FE SY 2 e EAEE AHR. RE EL SR TT A KI SE SABE RG A AST 
WKZ AR WA TL WA: UE AO EL SE FA AL ig BE I HL SE OY A EAL AE EART 
粗糙 集 的 两 个 主要 应 用 : 基于 粗 烽 集 的 属性 约 简 和 基于 粗 烽 集 的 决策 知识 表示 。 


7.1 粗糙 集 理 论 背 景 介绍 


7.1.1 粗糙 集 的 含义 


粗糙 集 (Rough Sets) 理 论 是 由 波兰 数学 家 Pawlak Z 于 1982 年 提出 的 。 粗 煤 集 方法 是 
基于 一 个 机 构 ( 或 一 组 机 构 ) 关 于 现实 的 大 量 数据 信息 ,以 对 观察 和 测量 所 得 数据 进行 分 类 
的 能 力 为 基础 ,从 中 发 现 ,推理 知识 和 分 辩 系 统 的 某 些 特点 .过程 对象 等 的 一 种 方法 。 经 过 
二 十 多 年 的 发 展 以 及 研究 的 深入 ,粗糙 集 方法 在 理论 和 实际 应 用 上 都 取得 了 长 足 的 发 展 。 
在 知识 发 现 ,数据 挖掘 、 模 式 识 别 .故障 检测 、 医 疗 诊断 等 领域 得 到 了 广泛 应 用 。 

粗糙 集 理论 引入 数学 中 的 等 价 关 系 , 建 立 在 分 类 机 制 的 基础 上 , 它 将 分 类 理解 为 在 特定 
空间 上 的 等 价 关系 ,而 等 价 关 系 构 成 了 对 空间 的 划分 。 该 方法 的 主要 思想 是 利用 已 知 的 知 
识 库 ,将 不 确定 或 不 精确 的 知识 用 已 知 的 知识 库 中 的 知识 来 (近似 ?进行 刻画 。 粗 糙 集 理论 
与 其 他 处 理 不 确定 和 不 精确 理论 的 显著 的 区 别 是 它 无 须 提供 所 处 理 的 数据 集合 之 外 的 任何 
先 验 信息 ,避免 了 主观 影响 ,所 以 对 问题 的 不 确定 的 描述 或 处 理 是 一 种 较 好 的 方法 。 作 为 一 
种 刻画 不 完整 性 和 不 确定 性 的 数学 工具 ,其 主要 思想 是 在 保持 分 类 能 力 不 变 的 前 提 下 ,通过 
知识 约 简 ,导出 问题 的 决策 或 分 类 规则 , 它 能 有 效 地 分 析 和 处 理 不 精确 、 不 一 致 . 不 完整 等 各 
种 不 完备 信息 ,并 从 中 发 现 隐 含 的 知识 ,揭示 潜在 的 规律 。 由 于 粗糙 集 理 论 不 包含 处 理 原始 
数据 的 功能 ,所 以 该 理论 与 概率 论 ,模糊 数学 ,信息 论 和 证 据 理论 等 其 他 处 理 不 确定 性 和 不 
精确 性 问题 的 理论 有 很 强 的 互补 性 。 


7.1.2 粗糙 集 的 应 用 及 与 其 他 领域 的 结合 


1. 粗糙 集 理 论 的 应 用 

粗糙 集 的 生命 力 在 于 它 具 有 较 强 的 实用 性 ,从 诞生 到 现在 虽然 只 有 20 年 的 时 间 , 但 已 
经 在 许多 领域 取得 了 令 人 鼓舞 的 成 果 。 

C) 粗糙 集 应 用 于 智能 控制 。 粗 糙 集 根据 观测 数据 获得 控制 策略 的 方法 称 为 从 范例 中 
学 习 (Learning from Examples) ,属于 智能 控制 的 范畴 。 基 本 步骤 是 : 把 控制 过 程 中 的 一 些 
有 代表 性 的 状态 以 及 操作 人 员 在 这 些 状态 下 所 采取 的 控制 策略 都 记录 下 来 ,形成 决策 表 , 然 
后 对 其 分 析 化 简 , 总 结 出 控制 规则 。 形 式 为 I[F Condition=N 满足 THEN 采取 Decision = 
M。 粗 糙 集 方法 是 一 类 符号 化 分 析 方 法 ,需要 将 连续 的 控制 变量 离散 化 ,为 此 Pawlak Z 提 
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出 了 粗糙 函数 (Rough Function) 的 概念 ,为 粗糙 控制 打下 了 理论 基础 。 

(2) 粗糙 集 应 用 于 神经 专家 系统 。 在 专家 系统 中 ,知识 获取 是 一 个 非常 关键 的 阶段 , 定 
义 又 很 困难 。 由 苏丹 卡 同 大 学 马来西亚 大 学 和 普 恰 大 学 的 M. E. Yahia, R. Mahmod 等 人 
在 研制 的 粗糙 神经 专家 系统 时 提出 将 神经 网 络 作为 专家 知识 库 , 从 而 运用 粗糙 集 作 为 数学 
工具 来 处 理 不 确定 与 不 精确 数据 ,两 者 结合 则 形成 称 为 粗糙 神经 专家 系统 的 混合 结构 。 前 
者 作为 结构 中 神经 网 络 的 预 处 理 器 ,为 预 处 理 粗糙 引擎 ,后 者 形成 粗糙 神经 推理 引擎 的 推理 
引擎 新 结构 , 随 之 设计 为 一 种 新 知识 库 结 构 , 其 结构 基于 神经 网 络 与 粗糙 分 析 约 简 的 结 
合 上 。 

(3) 粗糙 集 应 用 于 决策 分 析 。 在 决策 分 析 方 面 , 粗 糙 集 理论 的 决策 规则 是 在 分 析 以 往 
经 验 数 据 的 基础 上 得 到 的 , 它 允 许 决策 对 象 存 在 一 些 不 太 明 确 的 属性 。 希腊 发 展 银行 
ETEVA 应 用 粗糙 集 理 论 协助 制定 信贷 政策 ,是 粗糙 集 理论 多 准则 决策 方法 的 一 个 成 功 范 
例 。 另 外 ,由 意大利 卡 塔 亚 大 学 学 者 Salvatore Greco 和 波兰 波 兹 纳 特大 学 的 Roman 
Slowinshi 提出 可 以 将 粗糙 集 应 用 于 多 标准 决策 分 析 。 

(4) 粗糙 集 和 模糊 集 在 词汇 挖掘 中 的 应 用 。 美 国 Lowa University 和 Louisiana State 
University 的 Padmini Srinivasan 和 Miguel E. Ruiz 等 人 指出 ,信息 检索 中 的 词汇 挖掘 的 意 
义 是 利用 领域 词汇 提高 用 户 的 查询 效率 。 通 常用 户 的 查询 对 检索 主题 并 不 是 优化 的 ,词汇 
挖掘 允许 概括 、 细 化 或 执行 其 他 基于 词汇 查询 的 转换 ,以 提高 查询 性 能 。 该 文 研究 了 一 种 新 
的 词汇 挖掘 机 制 , 它 采 用 了 粗糙 集 与 模糊 集 的 结合 。 文 本 查询 既 可 以 使 用 权重 即 模糊 表示 ， 
也 允许 使 用 基于 粗糙 集 的 近似 表示 。 该 文 探索 和 概括 了 粗糙 集 和 可 变 精 度 模型 ,还 解决 了 
多 词汇 视图 的 问题 。 最 后 分 析 了 应 用 该 词汇 挖掘 结构 的 联合 医疗 语言 系统 。 该 机 制 支持 语 
义 和 信 息 检索 在 不 同 的 词汇 视图 中 的 应 用 。 

(5) 粗糙 集 应 用 于 股票 数据 分 析 。Golan 和 Ziarko 应 用 粗糙 集 理论 分 析 了 长 期 的 股票 
历史 数据 ,研究 了 股票 价格 与 经 济 指数 之 间 的 依赖 关系 ,获得 的 预测 规则 得 到 了 华尔街 证 券 
交易 专家 的 认可 。 

(6) 粗糙 集 应 用 于 医疗 诊断 。 在 医疗 诊断 方面 ,用 粗糙 集 方 法 根据 以 往 病例 归纳 出 诊 
断 规则 ,用 来 指导 新 的 病例 。 早 期 人 工 预 测 早产 准确 率 只 有 17% ~38% ,应 用 粗糙 集 理 论 
可 提高 到 68% ~90%, 

(7) 燃 集 理论 的 应 用 领域 还 包括 地 震 预 报 、 冲 突 分 析 、 近 似 推理 ,软件 工程 数据 分 析 、 图 
像 处 理 、 材 料 科 学 中 的 晶体 结构 分 析 、 预 测 建 模 、 结 构建 模 、 投 票 分 析 、 电 力 系统 等 。 


2. 粗糙 集 方法 存在 的 一 些 问 题 

(1) 粗糙 集 产生 的 决策 规则 很 不 稳定 ,精确 性 有 待 提 高 ,原因 在 于 粗糙 集 理 论 对 错误 判 
断 的 决定 性 机 制 非常 简单 。 

(2) 粗糙 集 只 能 处 理 离散 化 的 属性 ,而 现在 存在 的 数据 一 般 都 是 连续 性 的 。 目 前 存在 
的 一 些 离散 化 方法 或 多 或 少 都 存在 一 定 缺 陷 。 

(3) 粗糙 集 理论 是 基于 完备 信息 系统 的 。 在 对 样本 数据 进行 处 理 时 ,往往 会 遇 到 数据 
丢失 问题 ,此 时 需要 建立 处 理 不 完备 信息 系统 的 扩展 粗糙 集 模型 。 

(4) 由 于 属性 组 合 的 爆炸 ,粗糙 集 属 性 约 简 的 求解 是 一 个 多 项 式 复 杂 程 度 的 非 确 定性 
问题 ,必然 需要 找到 一 个 适当 方法 解决 此 问题 。 国 内 外 学 者 在 这 方面 做 了 大 量 研究 ,但 目前 
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还 未 得 出 有 效 的 解决 方法 。 
为 了 解决 这 些 问 题 ,根据 实际 情况 结合 多 种 人 工 智能 和 数据 挖掘 的 方法 ,成 为 粗糙 集 的 
研究 热点 之 一 。 下 面 对 粗 烽 集 理论 和 其 他 相关 理论 和 相关 领域 的 关系 加 以 阐述 。 


3. 粗糙 集 与 其 他 相关 理论 和 领域 

1) 粗糙 集 与 模糊 集 、 证 据 理论 的 关系 

粗 烽 集 与 模糊 集 都 能 处 理 不 完备 (Imperfect) 数 据 , 但 方法 不 同 ,模糊 集注 重 描 述 信息 
的 含糊 (Vagueness) 程度 ,粗糙 集 则 强调 数据 的 不 可 辨别 (Indiscernibility)、 不 精确 
(CImprecision) 和 模棱两可 (Ambiguity)。 例 如 ,在 论述 图 像 的 清晰 程度 时 ,粗糙 集 强 调 组 成 
图 像 像素 的 大 小 ,而 模糊 集 则 强调 像素 存在 不 同 的 灰 度 。 粗 糙 集 研究 的 是 不 同类 中 的 对 象 
组 成 的 集合 之 间 的 关系 , 重 在 分 类 ;模糊 集 研究 的 是 属于 同一 类 的 不 同 对 象 的 隶属 的 关系 ， 
重 在 隶属 的 程度 。 因 此 粗糙 集 和 模糊 集 是 两 种 不 同 的 理论 ,但 又 不 是 相互 对 立 的 ,它们 在 处 
理 不 完善 数据 方面 可 以 互 为 补充 。 将 粗糙 集 与 模糊 集结 合 , 可 以 弥补 粗糙 集 理论 在 描述 属 
性 集合 中 的 不 足 , 又 易于 对 系统 的 描述 特征 进行 优选 ,两 者 的 有 机 结合 可 以 构成 粗糙 集 一 模 
糊 集 智能 信息 处 理 系统 。 该 系统 利用 粗糙 集 和 模糊 集 在 处 理 不 完善 ,不 准确 性 知识 中 的 优 
势 , 大 大 降低 了 处 理 信息 的 维 数 和 计算 特征 值 的 工作 量 , 也 降低 了 系统 的 复杂 程度 。 

粗 烽 集 理论 与 证 据 理 论 虽 有 一 些 相 互 交 芭 的 地 方 , 但 本 质 不 同 ,粗糙 集 使 用 集合 的 上 、 
下 逼近 而 证 据 理论 使 用 信任 函数 (Belief Function) 作 为 主要 工具 。 粗 糙 集 对 给 定数 据 的 计 
算是 客观 的 ,无 须知 道 关 于 数据 的 任何 先 验 知识 (如 概率 分 布 等 ) ,而 证 据 理论 则 需要 假定 的 
似 然 值 (Plausibility) 。 

模糊 推理 的 基础 是 模糊 逻辑 ,模糊 推理 规则 的 确定 是 应 用 的 关键 ,但 给 出 模糊 规则 的 方 
法 大 都 带 有 一 定 的 主观 因素 。 将 粗糙 集 理论 与 模糊 推理 融合 ,利用 粗糙 集 理论 知识 分 类 方 
法 ,为 模糊 推理 中 模糊 推理 规则 的 产生 提供 了 一 种 较为 客观 的 方法 ,并 运用 到 不 完备 信息 系 
统 的 完备 化 。 用 粗糙 集 理论 的 计算 只 和 已 知 数据 有 关 、 不 要 求 任 何 额 外 知识 的 优点 以 及 遗 
传 算法 全 局 最 优 的 优点 ,同时 将 量化 区 间 进 行 模糊 化 ,将 清晰 规则 集 转化 为 模糊 规则 集 , 利 
用 模糊 推理 进行 决策 ,提高 了 和 鲁 棒 性 ,并 通过 实际 测试 验证 了 所 提 算 法 的 有 效 性 。 

2) 粗糙 集 和 神经 网 络 

神经 网 络 和 粗糙 集 都 是 模拟 人 的 思维 方式 进行 工作 的 方法 ,不 同 之 处 在 于 神经 网 络 是 
模拟 人 的 直 沉 思维, 而 粗糙 集 是 模拟 人 类 的 抽象 思维 ,神经 网 络 有 很 好 的 非 线 性 映射 能 力 ， 
其 网 络 的 参数 设置 灵活 ;但 它 不 能 对 属性 进行 约 简 , 在 有 宛 余 属 性 时 ,训练 时 间 较 长 ,其 自身 
的 学 习 能 力 ( 特 别 是 在 自动 知识 获取 方面 ) 也 急需 提高 和 改善 。 而 粗糙 集 可 以 在 分 类 能 力 不 
变 的 情况 下 对 属性 进行 约 简 , 这 对 神经 网 络 是 一 个 好 的 补充 ;但 粗糙 集 对 噪音 点 很 敏感 , 神 
经 网 络 的 自 组 织 能 力 、 容 错 能 力 和 推广 能 力 能 很 好 地 弥补 粗糙 集 这 个 缺点 。 因 此 ,将 粗糙 集 
理论 和 神经 网 络 方法 相 结合 来 解决 模式 识别 值得 我 们 研究 。 将 自 适应 共振 理论 (Adaptive 
Resonance Theory 2，ART2) 神 经 网 络 .模糊 小 波 神经 网 络 与 粗糙 集 融合 ,利用 粗糙 集 理论 
简化 神经 网 络 的 训练 样本 ,消除 宛 余数 据 , 有 效 地 改善 了 神经 网 络 对 有 宛 余 和 不 确定 数据 输 
人 模式 的 处 理 能 力 , 提 高 了 训练 速度 。 构 造 出 粗糙 神经 网 络 模型 ,改善 了 神经 网 络 结构 。 

3) 粗糙 集 与 遗传 算法 

遗传 算法 是 由 密歇根 大 学 教授 Holland 及 其 学 生 于 1975 年 创建 ,具有 天 生 的 隐 含 并 行 
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性 和 强大 的 全 局 搜索 能 力 , 通 过 模拟 生物 适 者 生存 的 遗传 进化 原理 来 得 到 解 空间 的 全 局 最 
优 解 , 这 些 特点 可 被 应 用 在 粗糙 集 理 论 的 很 多 方面 。 首 先 通 过 粗糙 集 理论 对 数据 进行 预 处 
理 ,在 实现 属性 约 简 中 结合 遗传 算法 ,提高 了 搜索 效率 ,然后 进行 规则 提取 ,并 以 实例 证 明了 
此 方法 的 可 行 性 。 决 策 表 连续 属性 的 离散 化 是 粗糙 集 理论 处 理 连 续 问 题 的 关键 ,可 以 引入 
遗传 算法 ,对 决策 表 的 断 点 选择 进行 优化 ,在 不 改变 决策 表 分 辨 关系 的 情况 下 使 离散 化 的 断 
点 数目 最 小 。 

粗糙 集 的 推理 过 程 是 必须 有 一 定 的 机 制 来 实现 的 。 在 现 有 的 各 种 算法 中 ,反映 自 适应 
演化 的 遗传 算法 是 一 种 好 的 形式 ,在 这 方面 人 们 也 已 经 取得 了 某 些 成 果 , 例 如 著名 的 LERS 
系统 就 采用 了 遗传 算法 的 组 桶 式 算 法 (Bucker Brigade Algorithm，BBA ) 过 程 ,实践 证 明 遗 
传 算法 是 可 以 与 粗糙 集 的 推理 过 程 相 结合 的 。 

4) 粗糙 集 与 支持 向 量 

支持 向 量 机 (Support Vector Machine，SVM) 最 先 由 Cortes 和 Vapnik 提出 ,是 一 种 专 
门 针对 有 限 样本 预测 的 学 习 方 法 ,与 经 典 的 基于 统计 的 模式 识别 和 机 器 学 习 方 法 不 同 , 其 采 
用 结构 风险 最 小 化 原则 ,最 优 分 类 面 的 决策 准则 ,在 最 小 化 样本 点 误差 的 同时 ,缩小 了 模型 
预测 误差 的 上 界 ,提高 了 模型 的 泛 化 能 力 。 如 何 高 效 地 利用 支持 向 量 机 进行 分 类 处 理 , 除 了 
开发 高 性 能 的 学 习 算 法 外 , 另 一 个 途径 就 是 对 样本 数据 库 进 行 预 处 理 , 发 现 关 键 信 息 。 经 典 
支持 向 量 机 所 得 到 的 分 类 器 ,由 于 只 考虑 到 训练 样本 的 很 小 一 部 分 ,虽然 这 样 有 利于 实现 分 
类 ,但 却 使 其 对 噪声 或 异常 值 特别 敏感 ,并 会 产生 过 拟 合 的 问题 。 因 此 通过 融合 粗糙 集 , 引 
入 粗糙 边缘 概念 ,以 获得 更 多 符合 条 件 的 样本 数据 ,从 而 很 好 地 解决 了 上 述 问题 。 

5) 粗糙 集 与 自动 控制 

历经 半 个 多 世纪 的 努力 ,自动 控制 已 经 发 展 成 相当 丰富 的 科学 体系 ,但 是 复杂 系统 对 象 
仍然 是 一 个 难点 ,例如 ,在 计算 机 控制 系统 中 ,由 于 离散 采样 、 反 馈 延 迟 .动态 系统 优化 等 原 
因 就 会 引发 混沌 , 非 线 性 动力 系统 (混沌 ) 的 辨识 是 鲁 棒 性 混沌 控制 器 的 一 项 基本 且 重 要 的 
工作 。 从 历史 的 逻辑 角度 看 ,粗糙 集会 对 设计 和 鲁 棒 非 线性 控制 和 开发 系统 提供 功能 更 强 的 
理论 手段 。 自 动 控制 已 成 为 粗糙 集 理 论 的 一 个 重要 的 应 用 场所 。 

利用 粗糙 集 理论 与 模糊 集 .证 据 理论 ,模糊 推理 、 神 经 网 络 、 遗 传 算法 、 自 动 控制 之 间 的 
交叉 关系 ,综合 使 用 多 种 方法 ,将 会 对 复杂 问题 的 解决 起 到 相辅相成 的 作用 ,获得 较 好 的 应 
用 效果 。 


7.2 粗糙 集 基 本 理论 


粗糙 集 理论 可 以 根据 已 给 定 的 知识 ,首先 对 问题 的 论 域 进 行 划 分 ,然后 对 划分 后 的 每 一 
组 成 部 分 确定 对 某 个 概念 的 支持 程度 : 肯定 支持 .肯定 不 支持 和 可 能 支持 三 种 。 在 粗糙 集 
中 用 正 域 ` 负 域 和 边界 域 三 个 近似 集合 来 表示 这 三 种 情况 。 粗 糙 集 中 的 不 精确 概念 用 所 有 
对 象 一 定 包 含 在 集合 中 的 下 近似 和 所 有 对 象 可 能 被 包含 在 集合 中 的 上 近似 来 表示 。 


7.2.1 知识 与 不 可 分 辨 关系 


给 定 一 个 有 限 的 非 空 集合 U 称 为 论 域 。 任 何 子 集 XSU, 称 为 U 中 的 一 个 概念 或 范 
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B. U 中 的 任何 概念 族 称 为 U 的 抽象 知识 ,简称 知识 。 设 RR 是 U 上 的 一 个 等 价 关 系 ,U|R 
RAR 的 所 有 等 价 关系 构成 的 集合 ,Lxjr 表示 包含 元 素 xEU 的 RR 等 价 类 。 

设 R 是 U 上 的 一 族 等 价 关 系 , 车 POR, H P#O, MAPEP 中 所 有 等 价 关 系 的 交集 ) 也 
是 一 个 等 价 关 系 , 称 为 P 上 的 不 可 分 辨 关系 ,用 ind(P) 来 表示 , 即 : 

ind(P) = {(x,y) EU XU: f(z,a) = f(y,a)a CCP} (7.1) 

不 可 分 辨 关系 是 物种 由 属性 集 P 表达 时 , 论 域 U 中 的 等 价 关 系 。U |ind(P) 表 示 由 等 
价 关 系 ind(P) 划 分 的 所 有 等 价 类 , 且 将 其 定义 为 与 等 价 关 系 P 的 族 相关 的 知识 , 称 为 P SE 
本 知识 。 同 时 ,也 将 Ulind(P) 记 为 UIP,ind(P) 的 等 价 类 称 为 关系 卫 的 基本 概念 或 基本 
范畴 。 


7.2.2 不 精确 范畴 .近似 与 粗糙 集 


1. 等 价 类 
设 R 为 U 上 的 一 族 等 价 关 系 。R 将 U 划分 为 互 不 相交 的 基本 等 价 类 ,二 元 对 K=(U, R) 
构成 一 个 近似 空间 (Approximation Space). i X HU 的 一 个 子 集 ,a HU 中 的 一 个 对 象 ， 
La] 表示 所 有 与 a 不 可 分 辨 的 对 象 所 组 成 的 集合 , 即 a 决定 的 等 价 类 。 可 表示 为 ， 
Lale = {y | (x,y) € ind(R)} (7.23 


2. 上 近似 和 下 近似 
HRE X 能 表示 成 基本 等 价 类 组 成 的 并 集 时 , 则 称 集合 X 是 R 可 精确 定义 的 , 称 作 
R 精确 集 ;否则 ,集合 X 是 R 不 可 精确 定义 的 , 称 作 怀 非 精确 集 或 R 粗糙 集 。 对 于 粗糙 集 
可 近似 利用 两 个 精确 集 , 即 下 近似 和 上 近似 来 描述 。 
X SFR 的 下 近似 (Lower Approximation) 定 义 为 : 
R(X) = {a € U:[a]k S X} (7. 3) 
R(X) 是 由 那些 根据 已 有 知识 判断 肯定 属于 X 的 对 象 所 组 成 的 最 大 的 集合 。 
X XFR 的 上 近似 (Upper Approximation) 定 义 为 : 
R(X) = {a € U:[a]r N X AO} (7.4) 
R(X) 是 所 有 与 X 相交 非 空 的 等 价 类 [aj 的 并 集 ,是 那些 可 能 属于 X 的 对 象 组 成 的 最 
小 集合 。 
3. HEE 


card(U) — card(R(X) — R(X)) 


ar(X) = card(U) 


(7.5) 


其 中 card() 表 示 该 集合 的 基数 , 且 XAG, 
ar XW EET U 中 的 能 够 根据 R 中 各 属性 的 属性 值 就 能 确定 其 属于 或 不 属于 
X 的 比例 ,也 即 对 U 中 的 任意 一 个 对 象 ,根据 R 中 各 属性 的 属性 值 确定 它 属于 或 不 属于 XX 
的 可 信和 度 。 
确定 度 性 质 : 0 过 ar(X) 志 1。 当 ar(X)==1 时 ,U 中 的 全 部 对 象 根据 R 中 各 属性 的 属性 
值 就 可 以 确定 其 是 否 属于 XX,X 为 R 的 可 定义 集 ; 当 0<ar(X) 二 1 时 ,U 中 的 部 分 对 象 根据 
R 中 各 属性 的 属性 值 就 可 以 确定 其 是 否 属于 X ,而 另 一 部 分 对 象 不 能 确定 其 是 否 属于 X, 
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X KR 的 部 分 可 定义 集 ; 当 ar(X) 二 0 时 ,U 中 的 全 部 对 象 都 不 能 根据 R 中 各 属性 的 属性 值 
就 可 以 确定 其 是 否 属于 X,X 为 R 的 完全 不 可 定义 集 。 当 XX 为 R 的 部 分 可 定义 集 或 完全 
不 可 定义 集 时 ,X 为 R 的 粗糙 集 。 


4. 边界 域 . 正 域 、 负 域 

bnR(X) 二 R(X) 一 R(X) 称 为 X 的 R 边界 域 ;posR(X) 二 R(X) 称 为 X WR EW; 
negR(X) 二 U 一 R(X) 称 为 X 的 R 负 域 。 显然 ,R(X) 二 posR(X) 十 bnR(X)。 

Æ R(X) =R(X). B bnR(X) =O, MEA X AR 可 精确 定义 的 , 称 作 尺 精确 集 ;否则 ， 
EA XER 不 可 精确 定义 的 , 即 ROX) ARCX) PRE R JERE R 粗糙 集 。 

举 一 个 例子 说 明 如 何 求 得 正 域 . 负 域 和 边界 域 。 设 U= {x1， r rs 21} LEM KA 
为 : R={(z1s 21) (Tzs 22) (zas La) Tay Be) Tas Za)s Czas za) bh; UIR={{zi}, 
{zz}, (zs, ti} }s ROX J=la21, zx2} ,LX = {zx1, z3}. 


因为 
{Ti} S [X]; {zz} CCK], {zz} CCX] 
所 以 
R(X1) = {21.22} 
因为 
[Xi] A {a1} = {arsxe} N {ai} = a a} Æ ® 
CXi] A {x2} = {x1 s22} N {a2} = {x2} AG 
[X11] 1) {23020} = {21522} 1) {25524} = @ 
所 以 
RX = {a1} U {22} = {21,22} 
Je) 


R(X) = {ay}, ROXs) = (ar stares) 

bnR(X,) = @, bnR(X;,) = {21523524} 

posR(X,) = R(X,) = {zı}, negR(X,) = U—R(X:) = {22} 
所 以 Xi 为 精确 集 ,X, 为 粗糙 集 。 


7.2.3 粗糙 集 的 精度 和 粗糙 度 


集合 范畴 的 不 确定 性 是 由 于 边界 域 的 存在 而 引起 的 。 集 合 的 边界 域 越 大 ,其 精确 性 越 
低 ,为 了 更 准确 地 表达 这 一 点 ,定义 了 精度 的 概念 ,如 下 所 示 : 
dR(X) = card(R(X))/card(R(X)) (7. 6) 
精度 dRCX) 用 来 反映 我 们 了 解 集合 X 知识 的 完全 程度 。 对 于 每 一 个 尽 且 XSEU, 有 
0 过 dR(X) 过 1; 当 dR(X)=1 时 ,XX 的 R WARAS, EA XAR 可 定义 的 ; 当 0 过 dR(X) 
<1 时 ,集合 X 有 非 空 边界 域 ,该 集合 为 尽 不 可 定义 的 。 
也 可 以 用 R 粗糙 度 来 定义 集合 X 的 不 确定 程度 , 即 : 
R(X) = 1—dR(X) (7.7) 
TER x 对 集合 X 的 粗糙 隶属 度 函 数 为 : 
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Rl(r,X) = card([a]e N X)/card([ x Jp) (7.8) 
与 概率 论 和 模糊 集合 论 不 同 ,不 精确 性 的 数值 不 是 事先 假定 的 ,而 是 通过 表达 知识 不 精 
确 性 的 概念 近似 计算 得 到 的 ,表示 的 是 有 限 知识 (对 象 分 类 能 力 ) 的 结果 。 


7.2.4 粗糙 集 的 粗 等 价 和 粗 包含 


在 概念 上 ,粗糙 集 与 传统 集合 有 本 质 的 区 别 。 在 传统 集合 论 中 , 当 两 个 集合 有 完全 相同 
的 元 素 时 它们 是 等 价 的 ,而 在 粗糙 集 理 论 中 ,集合 相等 被 看 作为 近似 等 价 。 在 实践 中 这 是 一 
个 重要 的 特点 ,因为 通常 通过 已 获得 的 知识 也 许 我 们 不 能 说 两 个 集合 是 否 相 等 ,只 能 说 依据 
我 们 的 知识 层次 ,它们 有 相近 的 特点 ,也 即 它们 近似 相等 。 集 合 的 近似 等 价 有 三 种 形式 , 令 
KK 二 (U,R) 为 一 知识 库 ,X, YSU 上 且 REind(K)。 

(1) RWV =R), EA XAY HFR 等 价 (Bottom R Equal), 记 作 (X)_R(Y); 

(2) 当 R(X)=RCY) Wt ES X FLY WER 等 价 (Top R Equal), 记 作 (X)-R(Y); 

(3) 当 存 在 R(X) 二 RC(Y) 且 ROO =R). EA X AY HR 等 价 (R Equal), 记 作 
CX)RCY)。 

可 见 ,(X) RCGYZ) CX) ROY) MCX) ROY) FR TCE AAAS OT AP EEA RAYE RL 

集合 的 近似 等 价 是 就 集合 间 拓扑 结构 比较 而 言 的 ,而 不 是 构成 集合 的 元 素 间 的 比较 , 因 
此 拥有 不 同 的 元 素 的 集合 可 以 是 粗 相 等 的 。 这 里 真正 起 作用 的 是 不 同 的 集合 有 相同 的 下 近 
似 集 或 上 近似 集 , 这 是 一 种 拓扑 特征 。 值 得 注意 的 是 , 粗 相 等 的 定义 依赖 对 于 论 域 的 知识 ， 
因而 集合 的 等 价 是 一 个 相对 的 概念 ,两 个 集合 在 一 个 近似 空间 中 可 以 是 等 价 的 ,而 在 另 一 个 
空间 中 可 能 只 是 近似 相等 或 不 等 。 

粗糙 集 的 包含 关系 也 有 别 于 传统 集合 的 包含 关系 : 

& K=(U.R)A— ARE. X, YSU AR €ind(K) , 则 : 

D 4ROXYOSRY) I RA X AF REE TF Y(Bottom R Included) i EXC ROY); 

(2) 4 RCXYCR(Y) I EA X HER 包含 于 Y(Top R Included), XC RY); 

(3) “44¢7E(X)C_R(Y) A(X) CRY). A X HR 包含 于 Y(R Included). i fF 
(X)CR(Y). 

可 见 ,(X)C_R(Y)、(X)C- R(Y) 和 (X)CR(Y) 描 述 了 任何 不 可 分 辩 关 系 R 的 包含 情 
况 。 集 合 的 粗 包 含 不 蕴涵 集合 的 包含 。 

粗糙 集 在 应 用 上 主要 有 两 大 类 : 一 类 是 无 决策 的 分 析 , 内 容 主要 包括 数据 压缩 、 约 简 、 
聚 类 与 机 器 发 现 等 ;当然 也 涉及 对 原始 数据 的 预 处 理 , 如 数据 压缩 与 约 简 等 。 另 一 类 是 有 决 
策 的 分 析 , 内 容 主要 包括 决策 分 析 、` 规 则 提取 等 。 在 接 下 来 的 两 节 将 分 别 曾 述 粗糙 集 在 无 决 
策 分 析 的 属性 约 简 和 有 决策 分 析 的 规则 提取 中 的 应 用 。 


7.3 基于 粗糙 集 的 属性 约 简 


知识 约 简 是 粗糙 集 理论 的 核心 内 容 之 一 。 所 谓 知识 约 简 , 就 是 在 保持 知识 库 分 类 能 力 
不 变 的 条 件 下 ,删除 其 中 不 相关 或 不 重要 的 知识 。 知 识 约 简 是 粗糙 集 理 论 的 核心 内 容 之 一 ， 
其 中 有 两 个 基本 概念 : 约 简 (Reduction) 和 核 (Core) 。 
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7.3.1 知识 的 约 简 和 核 


在 对 约 简 和 核 进行 讨论 之 前 , 先 作 如 下 定义 : 令 及 为 一 等 价 关 系 族 , 且 ~ER, 如 果 ind 
(R)=ind(R—{r}).#& r HR 中 可 省 略 的 (Dispensable), 否 则 7 为 R PAB A me AY 
(Indispensable)。 当 对 于 任 一 rER, 若 7 不 可 省 略 , 则 族 R 为 独立 的 ,否则 称 R 为 依赖 的 。 

命题 1 设 尺 是 独立 的 , 若 存在 属性 子 集 PSR, 则 已 也 是 独立 的 。 

证 明 : 假设 PCR. A P 是 依赖 的 , 则 存在 SCP, 使 得 ind(S)=ind(CP), 这 意味 着 ind 
(SU(R 一 P))==ind(R), 且 SU (R 一 P)CR, 因 此 R 为 依赖 的 ,与 假设 矛盾 , 故 命题 得 证 。 
i QCP, WR Q 是 独立 的 , 且 ind(Q)= 二 ind(P), 则 QQ 为 P 的 一 个 约 简 ,用 red(P) 表 示 。 
显然 ,P 可 以 有 多 种 约 简 。P 中 所 有 简化 属性 集中 都 包含 的 不 可 省 略 关 系 的 集合 ( 即 简 化 集 
red(P) 的 交 ) 称 为 P 的 核 , 记 作 core(P)。 它 是 表达 知识 必 不 可 少 的 重要 属性 集 。 一 般 属性 
的 约 简 不 唯一 而 核 是 唯一 的 。 

命题 2 属性 集合 的 核 与 简化 的 关系 表达 

core(P) =f red(P) (7.9) 
其 中 red(CP) 是 忆 的 所 有 简化 族 。 

可 以 看 出 , 核 这 个 概念 的 用 处 有 两 个 方面 : 首先 它 可 以 作为 所 有 简化 的 计算 基础 ,因为 
核 包含 在 所 有 的 简化 之 中 ,并 且 计 算 可 以 直接 进行 ;其 次 可 解释 为 在 知识 化 简 时 它 是 不 能 消 
去 的 知识 特征 部 分 的 集合 。 

S PRS HU 中 的 等 价 关 系 族 , 当 pos, CS) = poss- (SM. BK rE P H P 中 S 可 省 略 
的 ;否则 ,r 为 P PS 不 可 省 略 的 。 


命题 3 
core,(P) =f) red,(P) (7.10) 
其 中 red, (PÆ P PITA S 简化 族 。 
一 般 情 况 下 ,信息 系统 的 属性 约 简 集 有 多 个 ,但 约 简 集中 属性 个 数 最 少 的 最 有 意义 。 


推论 1 下 二 {Xi， XX;，,…,X,) 为 一 集合 族 ,X;SU, 如 果 门 (F 一 {X;)) 二 站 FF, 称 X 为 
F 中 可 省 略 的 ,和 否则 X; 是 下 中 不 可 省 略 的 。 
例 7.1 设 一 个 知识 系统 U ,假设 给 定 一 个 集合 族 P= (X, X, X) RP Xi 一 
人 
因为 站 (下 (Xi)) 一 Xe 门 Xs 王 (zi，z，Z，Zz6)， 门 (下 {X2}) =X, Xs = {ri, x3}, 
NN(F—{X3))=X NX: =(a1, r), ANFHX1 NN XN X= {x1 r) MRA X MX 是 
TRF Payee ay . A FE OY o 因 {Xi,， X2} (mx. X,}=(X1} ,所 以 集合 Xi 是 族 
(Xis X) MXi X HIH F 的 核 , 约 简 为 {X1，Xz} 和 {Xi1,， Xs}. 
例 7.2 利用 粗糙 集 理 论 给 出 了 对 知识 (或 数据 ) 的 约 简 和 求 核 的 方法 从 而 提供 了 从 信 
息 系统 中 分 析 多 余 属 性 的 能 力 。 假 设 有 一 个 信息 系统 的 离散 化 记录 如 表 7. 1 所 示 。 
U|C, = {(X1, X2, X3, Xa}, (Xss Xo}, (X7, Xe)? 
U | Cp = {{X1, Xs}. {X25 Xa. Xs, Xe}. (X7, Xs)} 
U | Cs = {{X1; Xs, Xs, Xe}, (X2, Xa)» (X7, Xe?) 
U | Cy = {{X1, X2, X3, Xis Xs, Xe}, (X7, Xs}} 
U | C= {{X1, X3}, (X2; Xi)» (Xs, Xe}, (X7, Xs}} 
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表 7.1 某 信息 系统 的 离散 化 的 记录 


后 的 信息 系统 记录 表 如 表 7. 2 所 示 。 
表 7.2 简化 后 的 信息 系统 记录 表 


首先 讨论 省 略 一 个 属性 的 情况 : 
U S Be Xs}, {Xs, Xi)» (Xs, Xe 


bs (X7, Xe} }=UIC ik Ci 可 以 省 略 。 
U la} s (X29 Xa}s (Xss Xe} (X79 Xe) =U|C MC, 可 以 省 略 。 
Ar a late (Neg Xer (Rs Xor (Xr X UC C US. 
U|C—CG,={{X,, X}, {X2 Xa)» {Xss Xo}, {X7 X) =U |C. ik G4 可 以 省 略 。 
由 此 可 知 ,属性 Cis Cos Co, Cy 全 部 可 以 单独 省 略 , 但 不 一 定 可 以 同时 省 略 ,下 面 讨论 
同时 省 略 两 个 属性 的 情况 : 

U|C—{C,, Co} ={{X1, X3, Xs, Xe}, (X2, Xa}, (X7, Xg}}AUIC , 故 Ci, Cz 不 可 
以 同时 省 略 。 

UC= iC s G= AXi Xa {Xs Xis Xsan Xelo {Xr Aer UICE Cio Gm 
以 同时 省 上 略 。 

U|C—{C,, Co}={{X1, DC 故人 不 可 
以 同时 省 略 。 

U|C—{Cy, CG}={{Xi, Xz}, {Xs, Xi}, (Xss Xe}, (Xz; Xs} }=UICL MC, Ci 可 
以 同时 省 略 。 

同 理 可 知 : Cz, Cy 可 同时 省 略 ,C: ，C， peruse 

因此 ,得 到 信息 表 有 三 个 最 简 属性 约 简 : ，Cz)，{C1，Cs} 和 {Cs，Cs), 从 而 可 得 到 
信息 系统 的 三 个 最 简约 简 如 表 7. 3 所 示 。 


表 7.3 三 个 最 简约 简 的 形式 


C—C:={{X1; 


Le 


7.3.2 知识 的 依赖 性 度量 和 属性 的 重要 度 


S K=(U. RR) 为 知识 库 , 且 P,QSCR, 知 识 的 依赖 性 为 : 
k = y (Q) = card(pos, (Q))/card(U) Ct AD 
HH, pos (Q 二 URCX),XEU|ind(Q) ,由 该 公式 可 知 : 知识 Q 是 & ER MIF P 的 
(O<R<1) , 记 作 P=AQ, 这 里 card(pos, (Q)) 表 示 了 根据 P,U 中 一 定 能 归 和 人 Q 的 元 素 的 数 
目 。 当 A=1 时 , 称 Q 是 完全 依赖 于 己 的 ; 当 0<&<1 时 , 称 Q 是 粗糙 (部 分 ) 依 赖 于 
P W; k=0 时 , 称 Q 是 完全 独立 于 PP 的。 
上 面 描述 的 观点 也 可 解释 为 对 象 分 类 的 能 力 。 准 确 地 说 , 当 &=1 时 , 论 域 的 全 部 元 素 
都 可 通过 知识 已 划 入 UIQ 的 初等 范畴 ; 当 k 关 1 时 ,只 有 属于 正 域 的 元 素 可 以 通过 P 划 入 
知识 Q 的 范畴 ;特别 地 , 当 A=0 时 , 论 域 中 没有 元 素 能 通过 已 划 入 Q 的 初等 范畴 。 
属性 重要 度 : 定义 属性 a OR 的 重要 度 为 a MAR 后 对 于 分 类 U/ind(P) 的 重要 程度 
SGF(a, R,P) = yr(P) — Yr-ta; (P) (7.12) 
其 中 yr-(w(P) 表 示 在 RR 中 缺少 属性 a 之 后 ,R 与 P 之 间 的 依赖 程度 。SGF(a, R, PRIR 
R 中 缺少 属性 a 后 ,导致 不 能 被 准确 分 类 的 对 象 在 系统 中 所 占 的 比例 。 
SGF(a, R, P) 的 性 质 : SGF(a, R, P)E[0,1]。 若 SGF(a, R, P)==0, 表 示 属 性 a 关 
F P ERK; Æ SGF, R, P) 关 0, 表 示 属 性 a AFP 是 不 可 省 的 。 属性 a 的 重要 性 是 
相对 而 言 的 , 它 依赖 于 属性 集 P 和 R。 
例 7.3 分 析 表 7.4 所 示 的 关于 汽车 的 知识 表达 系统 的 属性 集合 Q 对 于 PP 的 信息 依 
赖 性 。 


表 7.4 关于 汽车 的 知识 表达 系统 


U 小 车 4 类 型 2 机 型 d 速度 e 加 速 
1 中 柴油 中 差 
2 小 汽油 高 极 好 
3 大 柴油 高 好 
4 中 汽油 中 极 好 
5 中 柴油 低 好 
6 大 丙烷 高 好 
7 大 汽油 高 极 好 
8 小 汽油 低 好 


首先 通过 数据 预 处 理 , 进 行 属性 离散 化 操作 。 条 件 属 性 离散 化 处 理 的 规则 如 下 所 示 。 
类 型 : 小 0, 中 1, 大 2。 
机 型 : 柴油 0, 汽 油 1, 丙 烷 2。 
颜色 : 黑色 0, 白色 1, 灰色 2。 
决策 属性 离散 化 处 理 的 规则 如 下 所 示 。 
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速度 : 低 0, 高 1, 中 2。 
加 速 : 差 0, 好 1, 极 好 2。 
可 以 得 到 离散 化 的 决策 表 , 如 表 7.5 所 示 。 


表 7.5 关于 汽车 的 离散 化 知识 表达 系统 


考察 条 件 属性 P= (a, b, 和 决策 属性 Q={(d. e} 之 间 的 信息 依赖 性 。U 二 {1, 2, 3, 
a By GT 8},U|P={{1, 5}, (2 8}, {3}, {4}, {6}, {(7}}, U/Q={{1}, (2, 7}, 
{3,6}, {4}. (5, 8)} ,首先 计算 QM F P 的 依赖 度 。 

因为 Q{(1) =B,Q{2,7} ={7} ,Q{3,6}={3} U {6} .Q{4} = {4} .Q{5,8} =, tik pos, (Q) 
={7}U {3} U {6} U {4} ={3, 4, 6, 7},card(pos,(Q))=4,7,(Q) =4/8=0.5. 

属性 重要 度 计算 : posu (Q)={3. 4, 6}. posp (Q) ={3, 4, 6, 7}, posp-io (Q) = 
{35 4, 6, 7) 58K Yp- (Q)=3/8=0. 375, yp- (Q)=4/8=0. 5, Yp- (Q) =4/8=0. 5, 

因此 yQ) — Yia (Q) = 0. 5—0. 375 =0. 125, 7, (Q) — Y-i (Q) =0.5—-0. 5=0, 
Xp (Q) = Yia (Q) =0. 5—0. 5=0, IBLE abc 的 重要 度 分 别 为 0.125.0.0, 可 见 属性 a 的 重 
要 度 最 大 。 


7.4 基于 粗糙 集 的 决策 知识 表示 


7.4.1 基于 粗糙 集 的 决策 知识 表示 方法 


粗糙 集 理论 除了 给 出 了 对 知识 (或 数据 ) 的 约 简 和 求 核 的 方法 外 ,还 提供 了 从 决策 表 中 
抽取 规则 的 能 力 ,机 器 学 习 和 从 数据 库 中 的 知识 发 现 就 是 基于 这 个 能 力 。 这 个 方法 可 以 在 
保持 决策 一 致 的 条 件 下 将 多 余 属性 删除 。 

基于 粗糙 集 理论 的 观点 ,知识 表示 系统 可 表示 为 S=<U, A, V, f>, HEP, U 为 对 象 的 
非 空 有 限 集合 ;A 为 属性 的 非 空 有 限 集合 ;V 为 属性 的 值 域 集 ;j 为 信息 函数 (f: UXA>V)~ 
如 果 A=CUD.CN DA®.C 为 条 件 属 性 集 ,D 为 决策 属性 集 , 则 知识 表达 系统 又 称 为 决策 
系统 ,有 时 用 (U, CUD) 表 示 。 在 决策 表 中 ,列表 示 属 性 , 行 表 示 对 象 ,并 且 每 行 表示 该 对 象 
的 一 条 信息 。 可 以 看 出 ,一 个 属性 对 应 一 个 等 价 关 系 ,一 个 表 可 以 看 作 是 定义 的 一 族 等 价 

S X Æ U 中 根据 条 件 属性 C 可 定义 的 分 类 ,Y 是 U 中 根据 决策 属性 DD 定义 的 分 类 ,对 于 
每 个 zx; ,y;EU, 定 义 一 个 函数 d,: desc (zxi) 二 desp (yi;), 其 中 ,对 于 r € X69, EY 12; 9: AP. 

函数 d; 称 为 决策 表 工 中 的 决策 规则 ,决策 表 中 集合 U 的 元 素 不 表示 任何 实际 的 事物 ， 
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只 是 决策 规则 的 标识 符 。 当 d, 为 决策 规则 时 ,d, 对 于 C HAREE: d.|C.d, XF D 的 
约束 记 作 d;|1D,d;|C M dal D 分 别称 为 d; 的 条 件 和 决策 。 

如 果 对 于 每 个 y 关 +,d; 1C 二 d, |C 意味 着 4d;1D 二 4d,1D, 则 称 决策 规则 do 是 协调 的 , 否 
则 称 为 是 不 协调 的 ;只 有 当 所 有 的 决策 规则 都 是 协调 的 时 候 ,决策 表 才 是 协调 的 ,否则 决策 
表 是 不 协调 的 。 

下 面 介 绍 决策 表 中 属性 的 一 些 性 质 

命题 4 当 且 仅 当 CSD MRR THU. A, C, D) 是 协调 的 。 

由 命题 4 很 容易 通过 计算 条 件 属 性 和 决策 属性 间 的 依赖 程度 来 检查 协调 性 。 当 依赖 程 
度 等 于 1 时 ,决策 表 是 协调 的 ,否则 不 协调 。 

命题 5 每 个 决策 表 TSU, A, C, D) 都 可 以 唯一 地 分 解 成 为 两 个 决策 表 T = 
(Uis A, C, DM Tr =(Uz, A, C, DD), 这 样 使 得 表 T H C> DMA T: 中 C=>,D。 这 里 
U, =pose (D) U2, = Ubne(X), XEU |ind(O), 

由 命题 5 可 见 , 假 设 已 计算 出 条 件 属 性 和 决策 属性 的 依赖 度 , 若 表 不 协调 , 即 依赖 
度 小 于 1, 由 命题 2 可 以 将 表 分 解 为 两 个 子 表 : 其 中 一 个 表 完 全 不 协调 ,依赖 度 为 0; 另 
一 个 表 则 完全 协调 ,依赖 度 为 1。 当然 ,只 有 当 依 赖 度 大 于 0 且 不 等 于 1 时 ,这 一 分 解 
才能 进行 。 

从 协调 的 决策 表 中 可 以 抽出 确定 性 规则 ,而 从 不 协调 的 决策 表 中 只 能 抽出 不 确定 性 的 
规则 或 可 能 性 规则 (有 时 也 称 为 广义 决策 规则 ) ,这 是 因为 在 不 协调 的 系统 中 存在 着 矛盾 的 
事例 。 

决策 表 中 的 决策 规则 一 般 可 以 表示 为 形式 人 A(c, WV Cd, w), AC, v) PKJ II KY 
条 件 部 分 ,而 V Cd, w) 称 为 规则 的 决策 部 分 。 决 策 规则 即使 是 最 优 的 也 不 一 定 唯一 。 

通过 上 面 公式 的 计算 ,在 决策 表 中 抽取 规则 的 一 般 方法 为 : 

(1) 在 决策 表 中 将 信息 相同 ( 即 具 有 相同 描述 ) 的 对 象 及 其 信息 删除 ,只 保留 其 中 一 个 
压缩 后 的 信息 表 , 即 删除 多 余 事例 ; 

(2) 删除 多 余 的 属性 ; 

D 对 每 一 个 对 象 及 其 信息 中 将 多 余 的 属性 值 删除 ; 

(4) 求 出 最 小 约 简 ; 

(5) 根据 最 小 约 简 , 求 出 逻辑 规则 。 


7.4.2 粗糙 集 在 规则 提取 中 的 应 用 算 例 


例 7.4 考虑 表 7.5 表示 的 知识 表达 系统 。 这 里 C 二 {a, b,c) 为 条 件 属性 ,D=={d, e) 

W U|C={{1, 5}, {2, 8}, {3}. {4}. {6}, {7}},U]D={{1}. {2, 7}, {3, 6}, {4}, 
{5, 8}}.pose(D)={{3}. {4}, {6}, {7} }.% CD) =4/8 Al, AAR 7. 5 中 的 决策 规则 是 不 协调 
WY. FER 7.5 中 ,desc(1) 一 (1, 0, 2}>desp (1) = {2, 0} 45 dese (5)={1, 0, 2} = desp (5) = 
(0, 1) 矛盾 , 故 这 个 表 中 决策 规则 1、 决 策 规则 2 是 不 协调 的 。 根 据 命题 ,由 pose (D) = 
4{3),，{4)}, {6), {7)} 可 将 表 7.5 可 以 分 解 为 表 7.6 MR 7.7 两 个 决策 表 : 


s lele 


表 7.6 协调 决策 表 


U a b c d b c d e 
3 2 0 0 1 2 0 1 1 
4 1 i 0 2 1 1 1 2 

U a b c d b c d e 
1 1 0 2 2 0 2 0 1 
2 0 1 1 l 1 1 0 l 


HTa AUIC={3}; {4}, {6}, (7}},U] D={{3, 6}, (4s 7}},posc(D) = 
{{3}, {4}, {6}, (7}},# re(D) =4/4=1, 
因此 决策 表 7. 6 是 协调 的 ,表明 决策 表 7.6 中 所 有 决策 规则 是 协调 的 。 
从 协调 决策 表 中 ,可 以 抽取 得 到 四 条 最 优 决策 规则 ， 
(Cl, 2) A (C2, 0) A (C3, 0) + (D1, D V (D2, 1) 
(Cl 1) A (C25 D A CO 0) > C1, 2). V (D252) 
(Cl, 2) A (C2, 2) A (C3, 0) > (D1, 1) V (D2, 1) 
(Els 2) A CD 1) NCC 1 > Dy. 1) Y CD2,. 2) 
其 中 (Cl, 2) 表 示 条 件 属性 集合 中 的 第 一 个 属性 取 值 为 2, 即 a=2; (D1, 1) 表 示 决 策 属 性 集 
合 中 的 第 一 个 属性 取 值 为 1, 即 d=1, 
对 于 表 7.7, 因 为 U|C={{1, 5}, {2, 8}},U|D={{1}, {2}, {5, 8}},pose(D) =, ik 
¥c(D)=0/4=0A1, HER GER 7.7 是 不 协调 的 ,表明 决策 表 7.7 中 所 有 决策 规则 是 不 协 
调 的 。 


7.5 小 结 


本 章 介绍 了 粗糙 集 的 含义 和 基本 理论 ,综述 了 粗糙 集 的 广泛 应 用 领域 和 存在 的 问题 , 同 
时 介绍 了 粗糙 集 理论 与 模糊 集 .证 据 理论 .模糊 推理 、 神 经 网 络 .遗传 算 法 .自动 控制 之 间 的 
交叉 关系 。 对 于 粗糙 集 的 两 个 核心 内 容 : 无 决策 的 分 析 ( 数 据 压缩 、 约 简 、 聚 类 与 机 器 发 现 
等 ) 和 有 决策 的 分 析 ( 决 策 分 析 、` 规 则 提取 等 ) 进 行 了 详细 的 介绍 。 最 后 详细 介绍 了 粗糙 集 两 
类 主要 的 应 用 , 即 基于 粗糙 集 的 属性 约 简 以 及 决策 知识 表示 o 


1. 解释 粗糙 集 含义 。 

2. 解释 知识 与 不 可 分 辨 关系 。 

3. 解释 不 精确 范畴 .近似 与 粗糙 集 。 
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. 解释 粗糙 集 的 精度 和 粗糙 度 和 粗糙 集 的 粗 等 价 和 粗 包含 。 

. 解释 知识 的 约 简 和 核 和 知识 的 依赖 性 度量 和 属性 的 重要 度 。 
. 说 明 粗 糙 集 理论 的 应 用 及 与 其 他 领域 的 结合 。 

.应 用 粗糙 集 方法 实现 属性 约 简 。 

. 应 用 粗糙 集 方法 决策 知识 表示 。 
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8H BRAAM 


本 章 定义 遗传 算法 概念 和 理论 来 源 , 介 绍 遗 传 算法 的 应 用 领域 和 研究 方向 ,解释 遗传 算 
法 的 相关 概念 、 编 码 规则 ,三 个 主要 算 子 和 适应 度 函 数 ,描述 遗传 算法 计算 过 程 和 参数 选择 
的 准则 ,最 后 给 出 遗传 算法 的 实例 应 用 。 


8.1 遗传 算法 基础 理论 


8.1.1 遗传 算法 概述 


生物 在 自然 界 中 的 生存 繁衍 ,显示 出 了 其 对 自然 环境 的 优异 自 适 应 能 力 。 受 其 启发 ,人 
们 致力 于 对 生物 各 种 生存 特性 的 机 理 研 究 和 行为 模拟 ,为 人 工 自 适应 系统 的 设计 和 开发 提 
供 了 广阔 的 前 景 。 遗 传 算法 (Genetic Algorithm，GA) 就 是 这 种 生物 行为 的 计算 机 模拟 中 
令 人 了 瞩目 的 重要 成 果 。 基 于 对 生物 遗传 (Heredity) 和 进化 (Evolution) 过 程 的 计算 机 模拟 ， 
通过 遗传 算法 使 各 种 人 工 系 统 具 有 优良 的 自 适应 能 力 和 优化 能 力 。 遗 传 算法 所 借鉴 的 生物 
学 基础 就 是 生物 的 遗传 和 进化 。 

世间 的 生物 从 其 双亲 继承 特性 或 性 状 ,这 种 生命 现象 就 称 为 遗传 ,研究 这 种 生命 现象 的 
科学 叫做 遗传 学 (Genetics)。 由 于 遗传 的 作用 ,使 得 人 们 可 以 种 瓜 得 瓜 、 种 豆 得 豆 , 也 使 得 
鸟 儿 仍然 是 在 天 空中 飞翔 , 鱼 儿 仍然 是 在 水 中 邀 游 。 

而 另 一 种 生命 现象 进化 则 是 生物 在 其 延续 生存 的 过 程 中 ,逐渐 适应 于 其 生存 环境 。 使 
得 其 品质 不 断 得 到 改良 。 生 物 的 进化 是 以 集团 的 形式 共同 进行 的 ,这 样 的 一 个 团体 称 为 群 
体 (Population) ,组 成 群体 的 单个 生物 称 为 个 体 (Individual) ,每 一 个 个 体 对 其 生存 环境 都 有 
不 同 的 适应 能 力 ,这 种 适应 能 力 称 为 个 体 的 适应 度 (Fitness) ,这 是 达尔 文 (Darwin) 的 自然 
选择 学 说 (Natural Selection) 的 中 心思 想 , 它 构成 了 现代 进化 论 的 主体 。 

虽然 人 们 还 未 完全 揭 开 遗传 与 进化 的 奥秘 , 既 没 有 完全 掌握 其 机 制 ,也 不 完全 清楚 染色 
体 (Chromosome) 编 码 和 译 码 过 程 的 细节 ,更 不 完全 了 解 其 控制 方式 ,但 遗传 与 进化 的 以 下 
几 个 特点 却 为 人 们 所 共识 : 

(1) 生物 的 所 有 遗传 信息 都 包含 在 其 染色 体 中 ,染色 体 决 定 了 生物 的 性 状 ; 

(2) 染色 体 是 由 基因 从 其 有 规律 的 排列 所 构成 的 ,遗传 和 进化 过 程 发 生 在 染色 体 上 ; 

(3) 生物 的 繁殖 过 程 是 由 其 基因 (Gene) 的 复制 来 完成 的 ; 

(4) 通过 同 源 染 色 体 之 间 的 交叉 或 染色 体 的 变异 会 产生 新 的 物种 ,使 生物 呈现 新 的 
性 状 ; 

(5) 对 环境 适应 性 好 的 基因 或 染色 体 经 常 比 适应 性 差 的 基因 或 染色 体 有 更 多 的 机 会 遗 
传 到 下 一 代 。 

遗传 算法 是 一 类 借鉴 生物 界 的 进化 规律 ( 适 者 生存 ,优胜 劣 汰 遗传 机 制 ) 演 化 而 来 的 随 
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机 搜索 算法 ,其 基本 思想 来 源 于 Darwin 的 进化 论 和 Mendel 的 遗传 学 说 。 它 是 由 美国 
Michigan 大 学 的 J. Holland 教授 在 1975 年 首先 提出 的 ,20 世纪 70 年 代 De Jong 基于 遗传 
算法 的 思想 在 计算 机 上 进行 了 大 量 的 纯 数值 函数 优化 及 实验 。 在 一 系列 研究 工作 的 基础 
上 ,20 世纪 80 年 代 由 Goldberg 进行 归纳 总 结 ,形成 了 遗传 算法 的 基本 框架 。 利 用 基因 变 
异 ,杂交 ,繁殖 等 手段 ,根据 达尔 文 的 适 者 生存 ,优胜 劣 汰 的 理论 选择 最 优点 进行 变异 和 杂 
交 , 从 而 繁殖 产生 新 的 后 代 , 这 些 都 是 建立 在 概率 的 基础 之 上 。 现 已 广泛 应 用 于 计算 机 科 
学 \ 人 工 智 能 、 信 息 技术 及 工程 实践 。 在 工业 、 经 济 管理 .交通 运输 .工业 设计 等 不 同 领域 ,成 
功 解决 了 许多 问题 。 例 如 ,可 靠 性 优化 、 流 水 车 间 调 度 、 作 业 车 间 调 度 、 机 器 调度 、 设 备 布局 
设计 、 图 像 处 理 以 及 数据 挖掘 等 。 遗 传 算法 作为 一 类 自 组 织 与 自 适应 的 人 工 智能 技术 ,尤其 
适用 于 处 理 传 统 搜索 方法 难以 解决 的 复杂 的 和 非 线 性 的 问题 。 如 著名 的 旅行 商 问题 
(Traveling Salesman Problem, TSP) .背包 问题 . 排 课 问 题 等 。 


8.1.2 遗传 算法 特点 


遗传 算法 作为 一 种 新 型 的 ,模拟 生物 进化 过 程 的 随机 化 搜索 方法 ,在 各 类 结构 对 象 的 优 
化 过 程 中 显示 出 比 传统 优化 方法 更 为 独特 的 优势 和 良好 的 性 能 。 因 为 GA 利用 了 生物 进化 
和 遗传 的 思想 ,所 以 它 有 许多 与 传统 优化 算法 不 同 的 特点 : 

(1) 搜索 过 程 不 直接 作用 在 变量 上 ,而 是 作用 于 由 参数 集 进 行 了 编码 的 个 体 上 。 此 编 
码 操 作 使 遗传 算法 可 直接 对 结构 对 象 进行 操作 。 

C2) 搜索 过 程 是 从 一 组 解 迭 代 到 另 一 组 解 ,采用 同时 处 理 群体 中 多 个 个 体 的 方法 ,降低 
了 陷入 局 部 最 优 解 的 可 能 性 ,并 易于 并 行 化 。 

(3) 采用 概率 的 变迁 规则 来 指导 搜索 方向 ,不 采用 确定 性 搜索 规则 。 

(4) 对 搜索 空间 没有 任何 特殊 要 求 , 只 利用 适应 度 信 息 , 不 需要 其 他 辅助 信息 ,适应 范 
围 更 广 。 

(5) 对 给 定 问题 ,可 以 产生 许多 的 潜在 解 ,最 终 选择 可 以 由 使 用 者 确定 。 

GA 的 优越 性 主要 表现 在 : 首先 , 它 在 搜索 过 程 中 不 容易 陷入 局 部 最 优 , 即 使 在 所 定义 
的 适应 值 函 数 是 不 连续 的 、 非 规则 的 或 有 噪声 的 情况 下 , 它 也 能 以 很 大 的 概率 找到 整体 最 优 
解 ;其 次 ,由 于 它 固有 的 并 行 性 ,GA 非常 适用 于 大 规模 并 行 计算 机 。 遗 传 算法 提供 了 一 种 
求解 复杂 系统 优化 问题 的 通用 框架 , 它 不 依赖 于 问题 的 具体 领域 ,对 间 题 的 种 类 有 很 强 的 鲁 
棒 性 ,所 以 广泛 应 用 于 很 多 学 科 。 


8.2 遗传 算法 的 应 用 领域 和 研究 方向 


8.2.1 遗传 算法 的 应 用 领域 


1. 函数 优化 
函数 优化 是 遗传 算法 的 经 典 应 用 领域 ,也 是 对 遗传 算法 进行 性 能 评价 的 常用 算 例 。 很 
多 人 构造 出 了 各 种 各 样 的 复杂 形式 的 测试 函数 ,有 连续 函数 也 有 离散 函数 ,有 凸 函数 也 有 凹 
函数 ,有 低 维 函数 也 有 高 维 函 数 , 有 确定 函数 也 有 随机 函数 ,有 单 峰值 函数 也 有 多 峰值 函数 
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等 ,用 这 些 几 何 特性 各 具 特 色 的 函数 来 评价 遗传 算法 的 性 能 ,更 能 反映 算法 的 本 质 效果 。 而 
对 于 一 些 非 线 性 、 多 模型 .多 目标 的 函数 优化 问题 ,用 其 他 优化 方法 较 难 求解 ,而 遗传 算法 却 
可 以 方便 地 得 到 较 好 的 结果 。 


2. 组 合 优化 

随 着 问题 规模 的 增 大 ,组 合 优化 问题 的 搜索 空间 也 急剧 扩大 ,有 时 在 目前 的 计算 机 上 用 
枚 举 法 很 难 或 甚至 不 可 能 求 出 其 精确 最 优 解 。 对 这 类 复杂 问题 ,人 们 已 意识 到 应 把 主要 精 
力 放 在 寻求 其 满意 解 上 ,而 遗传 算法 是 寻求 这 种 满意 解 的 最 佳 工具 之 一 。 实 践 证 明 ,遗传 算 
法 已 经 在 求解 旅行 商 问题 .背包 问题 . 装 箱 问题 ,布局 优化 ` 图 形 划 分 问题 等 各 种 具有 NP 难 
度 的 问题 得 到 成 功 的 应 用 。 


3. 生产 调度 

生产 调度 问题 在 很 多 情况 下 建立 起 来 的 数学 模型 难以 精确 求解 ,即使 经 过 一 些 简化 之 
后 可 以 进行 求解 ,也 会 因 简 化 得 太 多 而 使 得 求解 结果 与 实际 相差 其 远 。 目 前 在 现实 生产 中 
主要 是 靠 一 些 经 验 来 进行 调度 。 现 在 遗传 算法 已 成 为 解决 复杂 调度 问题 的 有 效 工 具 , 在 单 
件 生产 \ 车 间 调 度 、 流 水 线 生产 间 调 度 、 生 产 规划 、 任 务 分 配 等 方面 遗传 算法 都 得 到 了 有 效 的 
应 用 。 

4. 自动 控制 

在 自动 控制 领域 中 有 很 多 与 优化 相关 的 问题 需要 求解 ,遗传 算法 已 在 其 中 得 到 了 初步 
的 应 用 ,并 显示 出 良好 的 效果 。 例 如 用 遗传 算法 进行 航空 控制 系统 的 优化 、 使 用 遗传 算法 设 
计 空 间 交 会 控制 器 .基于 遗传 算法 的 模糊 控制 器 的 优化 设计 、 基 于 遗传 算法 的 参数 辨识 、 基 
于 遗传 算法 的 模糊 控制 规则 的 学 习 、 利 用 遗传 算法 进行 人 工 神经 网 络 的 结构 优化 设计 和 权 
值 学 习 等 ,都 显示 出 了 遗传 算法 在 这 些 领 域 中 应 用 的 可 能 性 。 


5. 机 器 人 

机 器 人 是 一 类 复杂 的 难以 精确 建 模 的 人 工 系统 ,而 遗传 算法 的 起 源 就 来 自 于 人 工 自 适 
应 系统 的 研究 。 所 以 ,机 器 人 理所当然 地 成 为 遗传 算法 的 一 个 重要 应 用 领域 。 例 如 ,遗传 算 
法 已 经 在 移动 机 器 人 路 径 规划 ,关节 机 器 人 运动 轨迹 规划 、 机 器 人 逆 运 动 学 求解 、 细 胞 机 器 
人 的 结构 优化 和 行为 协调 等 方面 得 到 研究 和 应 用 。 


6. 图 像 处 理 

图 像 处 理 是 计算 机 视觉 中 的 一 个 重要 研究 领域 。 在 图 像 处 理 过 程 中 ,如 扫描 、 特 征 提 
取 、 图 像 分 割 等 不 可 避免 地 会 存在 一 些 误差 ,从 而 影响 图 像 的 效果 ,如 何 使 这 些 误差 最 小 是 
使 计算 机 视觉 达到 实用 化 的 重要 要 求 。 遗 传 算法 在 这 些 图 像 处 理 中 的 优化 计算 方面 找到 了 
用 武之 地 ,目前 已 在 模式 识别 (包括 汉字 识别 )、 图 像 恢 复 、 图 像 边 缘 特 征 提取 等 方面 得 到 了 
应 用 。 


7. 人 工 生命 
人 工 生 命 是 用 计算 机 、 机 械 等 人 工 媒 体 模拟 或 构造 出 的 具有 自然 生物 系统 特有 行为 的 
人 造 系统 。 自 组 织 能 力 和 自学 习 能 力 是 人 工 生命 的 两 大 主要 特征 。 人 工 生命 与 遗传 算法 有 
着 密切 的 关系 。 基 于 遗传 算法 的 进化 模型 是 研究 人 工 生 命 现象 的 重要 基础 理论 ,虽然 人 工 
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生命 的 研究 尚 处 于 启蒙 阶段 ,但 遗传 算法 已 在 其 进化 模型 .学 习 模 型 行为 模型 \. 自 组 织 模型 
等 方面 显示 出 了 初步 的 应 用 能 力 , 并 且 必 将 得 到 更 为 深入 的 应 用 和 发 展 。 人 工 生命 与 遗传 
算法 相辅相成 ,遗传 算法 为 人 工 生命 的 研究 提供 一 个 有 效 的 工具 ,人 工 生命 的 研究 也 必 将 促 
进 遗 传 算法 的 进一步 发 展 。 


8. 遗传 编程 

1989 年 美国 Standford 大 学 的 Koza 教授 发 展 了 遗传 编程 的 概念 ,其 基本 思想 是 : 采用 
树 状 结构 表示 计算 机 程序 ,运用 遗传 算法 的 思想 ,通过 自动 生成 计算 机 程序 来 解决 问题 。 虽 
然 遗传 编程 的 理论 尚未 成 熟 , 应 用 也 有 一 些 限制 ,但 它 已 成 功 地 应 用 于 人 工 智 能 、 机 器 学 习 
等 领域 ,目前 公开 的 遗传 编程 实验 系统 有 十 多 个 ,例如 ,Koza 开发 的 ADF ABE, White 开发 
的 GPELST 系统 等 。 


9. 机 器 学 习 

学 习 能 力 是 高 级 自 适应 系统 所 具备 的 能 力 之 一 ,基于 遗传 算法 的 机 器 学 习 , 特 别 是 分 类 
器 系统 ,在 很 多 领域 中 都 得 到 了 应 用 。 例 如 ,遗传 算法 被 用 于 学 习 模 糊 控制 规则 ,利用 遗传 
算法 来 学 习 隶 属 度 函数 ,从 而 更 好 地 改进 了 模糊 系统 的 性 能 ;基于 遗传 算法 的 机 器 学 习 可 用 
来 调整 人 工 神经 网 络 的 连接 权 , 也 可 用 于 人 工 神经 网 络 结构 优化 设计 ;分 类 器 系统 也 在 学 习 
式 多 机 器 人 路 径 规划 系统 中 得 到 了 成 功 的 应 用 。GA 较为 适合 维 数 很 高 .总 体 很 大 \ 环 境 复 
AS .问题 结构 不 十 分 清楚 的 场合 ,机 器 学 习 就 属 这 类 情况 。 一 般 的 学 习 系统 要 求 具有 随时 间 
推移 逐步 调整 有 关 参 数 或 者 改变 自身 结构 以 更 加 适应 其 环境 ,更 好 完成 目标 的 能 力 。 由 于 
其 多 样 性 与 复杂 性 ,通常 难以 建立 完善 的 理论 以 指导 整个 学 习 过 程 ,从 而 使 传统 寻 优 技术 的 
应 用 受到 限制 ,而 这 恰好 能 使 GA 发 挥 其 长 处 。 


10. 数据 挖掘 

数据 挖掘 是 近 几 年 出 现 的 数据 库 技术 , 它 能 够 从 大 型 数据 库 中 提取 隐 含 的 、 先 前 未 知 
的 \ 有 潜在 应 用 价值 的 知识 和 规则 。 许 多 数据 挖掘 问题 可 视 为 搜索 问题 ,数据库 视 为 搜索 空 
间 ,挖掘 算法 视 为 搜索 策略 。 因 此 ,应 用 遗传 算法 在 数据 库 中 进行 搜索 ,对 随机 产生 的 一 组 
规则 进行 进化 ,直到 数据 库 能 被 该 组 规则 覆盖 ,从 而 挖掘 出 隐 含 在 数据 库 中 的 规则 。 遗 传 算 
法 已 经 成 为 数据 挖掘 的 有 效 方法 之 一 。 

11. 复杂 性 科学 

在 复杂 性 问题 的 研究 中 ,GA 也 胃 露 头角 , 备 受 青睐 。 什 么 叫 复杂 性 问题 ,各 家 看 法 不 
一 。 共 同 认识 还 是 有 的 , 即 复杂 性 问题 应 是 多 层次 ,多 因素 ,其 相互 作用 是 非 线 性 、 不 确定 和 


学 习 策 略 的 研究 中 ,GA 占 重 要 地 位 。 由 于 介质 参数 的 模型 非常 大 ,同时 观测 数据 不 完备 、 
噪音 的 存在 、 源 的 情况 复杂 且 未 知 , 很 难 用 传统 的 方法 求 得 目标 函数 的 全 局 最 优 值 ,而 只 能 
求 一 定 意义 下 的 “满意 解 ”"。 这 时 ,可 供 选 择 的 方法 之 一 自然 是 GA。 
12. 运筹 学 
由 于 某 些 原因 ,如 维 数 太 高 或 计算 量 太 大 ,依靠 传统 方法 实际 上 难以 求解 。 运 筹 学 中 许 
多 排序 问题 ,如 旅行 商 问 题 、 工 序 安排 .设备 布置 等 都 属 此 类 。GA 被 称 为 对 当前 运筹 学 有 
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巨大 兴趣 的 课题 。GA 的 崛起 ,对 运筹 学 无 疑 是 一 个 有 力 的 推动 。 


13. 商业 应 用 

GA 的 商业 应 用 覆盖 面 甚 广 ,通用 电器 的 计算 机 辅助 设计 系统 Engeneous 是 一 个 混合 
系统 (Hybrid System) , 它 采 用 GA 以 及 其 他 传统 的 优化 技术 作为 寻 优 手段 。Engeneous 已 
成 功 地 应 用 于 汽轮机 设计 ,并 改善 了 新 的 波音 777 发 动机 的 性 能 。 美 国 新 墨西哥 州 州立 大 
学 心理 学 系 开发 了 一 个 所 谓 的 Faceprint 系统 ,可 根据 目击 者 的 印象 通过 计算 机 生成 嫌疑 犯 
的 面貌 。 计 算 机 在 屏幕 上 显示 出 20 种 面孔 ,目击 者 按 十 分 制 给 这 些 面 孔 评分 。 在 这 基础 
上 ,GA 按 通常 的 选择 、 交换 和 变异 算 子 生成 新 的 面孔 。Faceprint 的 效果 很 好 ,已 申报 专 
利 。 同 一 个 州 的 一 家 企业 一 预测 公司 (The Prediction Company) 则 首先 开发 了 一 组 用 于 人 金 
融 交 易 的 时 间 序 列 预测 和 交易 工具 ,其 中 GA 起 了 重要 作用 ,据说 ,这 一 系统 实际 运行 效果 
很 好 ,可 以 达到 最 好 的 交易 员 的 水 平 , 引 起 银行 界 的 关注 。GA 在 军事 上 的 应 用 也 有 报道 : 
如 用 于 红外 线 图 像 目标 判别 的 休 斯 遗 传 程序 系统 (Hughes Genetic Programming System), 
效果 很 好 ,以 致 准备 把 它 固化 成 硬件 。 


8.2.2 遗传 算法 的 研究 方向 


遗传 算法 是 多 学 科 结 合 与 渗透 的 产物 ,已 经 发 展 成 一 种 自 组 织 . 自 适应 的 综合 技术 , 广 
泛 应 用 在 计算 机 科学 .工程 技术 和 社会 科学 等 领域 。 

其 研究 工作 主要 集中 在 以 下 几 个 方面 : 

C) 基础 理论 .数学 模型 。 遗 传 算法 的 理论 基础 、 数 学 模型 主要 集中 于 对 算法 的 收敛 
性 、 复 杂 性 ,收敛 速度 的 研究 上 。 在 遗传 算法 中 ,群体 规模 和 遗传 算 子 的 控制 参数 的 选取 非 
常 困难 ,但 它们 又 是 必 不 可 少 的 试验 参数 。 遗 传 算法 还 有 一 个 过 早 收敛 的 问题 ,怎样 阻止 过 
早 收敛 也 是 正在 研究 的 问题 之 一 。 

C2) 分 布 并 行 遗传 算法 。 遗 传 算法 在 操作 上 的 突出 特点 是 具有 高 度 的 并 行 性 ,许多 研 
究 人 员 都 在 探索 在 并 行 机 和 分 布 式 系统 上 高 效 执行 遗传 算法 的 策略 。 对 分 布 并 行 遗传 算法 
的 研究 表明 ,只 要 通过 保持 多 个 群体 和 恰当 控制 群体 间 的 相互 作用 来 模拟 并 行 执 行 过 程 , 即 
使 不 使 用 并 行 计算 机 ,也 能 提高 算法 的 执行 效率 。 

(3) 分 类 系统 。 分 类 系统 属于 基于 遗传 算法 的 机 器 学 习 中 的 一 类 ,包括 基于 串 规则 的 
并 行 生成 子 系统 ,规则 评价 子 系统 和 遗传 算法 子 系统 。 分 类 系统 越 来 越 多 地 应 用 在 科学 T 
程 和 经 济 领域 中 ,是 目前 遗传 算法 研究 中 一 个 十 分 活跃 的 领域 。 

(4) 遗传 神经 网 络 。 遗 传 算法 与 神经 网 络 相 结合 ,正成 功 地 用 于 从 时 间 序 列 分 析 来 进 
行 财政 预算 。 在 这 些 系统 中 ,信号 是 模糊 的 ,数据 是 有 噪声 的 ,一 般 很 难 正确 给 出 每 个 执行 
的 定量 评价 。 如 果 采 用 遗传 算法 ,就 能 克服 这 些 困难 ,显著 提高 系统 性 能 。 

(5) 借鉴 自然 现象 提出 新 的 算法 模型 。 从 生物 进化 或 自然 界 的 各 种 现象 中 获得 新 的 启 
发 ,提出 新 的 方法 ,或 对 现 有 的 算法 进行 改进 ,如 二 倍 体 显 性 技术 、 小 生境 技术 等 。 

(6) 遗传 算法 的 应 用 研究 。 这 是 遗传 算法 的 主要 方向 ,开发 遗传 算法 的 商业 软件 、 开 拓 
更 广泛 的 遗传 算法 应 用 领域 是 今后 应 用 研究 的 主要 任务 。 

遗传 算法 被 认为 是 21 世纪 有 关 智 能 计算 中 的 关键 技术 之 一 ,是 一 个 十 分 活跃 的 研究 领 
域 , 正 在 从 理论 的 深度 .技术 的 多 样 化 以 及 应 用 的 广度 不 断 地 探索 , 朝 着 计算 机 拥有 甚至 超 
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过 人 类 智能 的 方向 努力 。 尽 管 它 在 实际 应 用 中 取得 了 巨大 成 功 ,但 其 鲜明 的 生物 特征 使 得 
在 数学 基础 方面 相对 不 完善 ,主要 表现 为 : 缺乏 广泛 而 又 完整 的 遗传 算法 收敛 性 理论 ， 
Holland 的 模式 定理 尚 不 能 清楚 解释 遗传 算法 在 非 二 进 制 形式 表示 情况 下 的 应 用 ,用 遗传 
算法 解决 实际 问题 的 时 间 复 杂 性 。 这 些 不 足 严重 阻碍 了 遗传 算法 的 应 用 推广 。 


8.3 遗传 算法 的 基础 知识 


8.3.1 遗传 算法 的 相关 概念 


遗传 算法 效法 于 自然 选择 的 生物 变化 ,是 一 种 模仿 生物 进化 过 程 的 随机 方法 ,因此 下 面 
几 个 关于 生物 学 的 基本 概念 与 术语 对 理解 遗传 算法 是 非常 重要 的 。 

(1) 染色 体 : 是 生物 细胞 中 含有 的 一 种 微小 的 丝 状 化 合 物 。 它 是 遗传 物质 的 主要 载 
体 ,由 多 个 遗传 因子 一 基因 组 成 。 

(2) 遗传 因子 : DNA 或 RNA 长 链 结构 中 占有 一 定位 置 的 基本 遗传 单位 ,也 称 为 基因 。 

(3) 个 体 : 指 染色 体 带 有 特征 的 实体 ,在 问题 简化 的 情况 下 可 代表 染色 体 。 

(4) 种 群 : 染色 体 带 有 特征 的 个 体 的 集合 称 为 种 群 ,该 集合 内 个 体 数 称 为 群体 的 大 小 。 
有 时 个 体 的 集合 也 称 为 个 体 群 。 

(5) 进化 : 生物 在 其 延续 生存 的 过 程 中 ,逐渐 适应 其 生存 环境 ,使 其 品质 不 断 得 到 改 
良 , 这 种 生命 现象 称 为 进化 。 生 物 的 进化 是 以 种 群 的 形式 进行 的 。 

(6) 适应 度 : 在 研究 自然 界 中 生物 的 遗传 和 进化 现象 时 ,生物 学 家 使 用 适应 度 这 个 术 
语 来 度量 某 个 物种 对 于 生存 环境 的 适应 程度 。 对 环境 适应 程度 高 的 物种 将 获得 更 多 的 繁殖 
机 会 ,而 对 生存 环境 适应 程度 较 低 的 物种 ,其 繁殖 的 机 会 就 相对 较 少 ,甚至 逐渐 灭绝 。 


8.3.2 遗传 算法 的 编码 规则 


编码 机 制 (Encoding Mechanism) 是 GA 的 基础 ,编码 是 遗传 算法 要 解决 的 首要 问题 。 
GA 不 是 对 研究 对 象 直 接 进行 讨论 ,而 是 通过 某 种 编码 机 制 把 对 象 统一 赋予 由 特定 符号 ( 字 
母 ) 按 一 定 顺 序 排 成 的 串 (String)。 将 问题 的 解 转换 成 基因 序列 的 过 程 称 为 编码 
(Encoding)。 反 之 ,将 基因 转换 成 问题 的 解 的 过 程 成 为 解码 (Decoding)。 对 GA 的 码 可 以 
有 十 分 广泛 的 理解 。 在 优化 问题 方面 ,一 个 串 对 应 于 一 个 可 能 解 ; 在 分 类 问题 方面 , 串 可 以 
解释 为 一 个 规则 , 即 串 的 前 半 部 为 输入 或 前 件 ,后 半 部 为 输出 或 后 件 、 结 论 等 。 对 于 任何 应 
用 遗传 算法 解决 实际 问题 ,都 必须 将 解 的 表达 方法 和 相关 问题 领域 的 特性 结合 起 来 分 析 考 
虑 ,这 也 正 是 GA 有 广泛 应 用 的 重要 原因 。 编 码 空间 与 解 空间 如 图 8. 1 所 示 。 


编码 空间 解 空间 


遗传 运算 评估 与 选择 


编码 


图 8.1 编码 空间 与 解 空间 
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从 图 8.1 可 见 , 遗 传 算法 的 一 个 显著 特点 是 它 交 蔡 地 在 编码 空间 和 人 解 空间 中 工作 , 它 在 
编码 空间 对 染色 体 进行 遗传 运算 (交叉 、 变 异 ) ,而 在 解 空间 对 解 进行 评估 和 选择 ,自然 选择 
联结 了 染色 体 和 它 所 表达 的 解 的 性 能 。 

当 用 遗传 算法 求解 问题 时 ,必须 在 问题 空间 和 对 遗传 算法 的 个 体 基 因 结 构 之 间 建 立 联 
系 , 即 确定 编码 和 解码 方案 。 一 般 来 说 ,由 于 遗传 算法 计算 过 程 的 鲁 棒 性 , 它 对 编码 的 要 求 
并 不 苛刻 ,但 编码 的 策略 对 于 遗传 算 子 ,尤其 是 对 交叉 和 变异 算 子 的 功能 和 设计 有 很 大 的 影 
响 。 评 估 编 码 机 制 一 般 采 用 以 下 三 个 规范 : 

(1) 完备 性 (Completeness) : 问题 空间 中 的 所 有 点 (候选 解 ) 都 能 作为 GA 空间 中 的 点 
(染色 体 ) 表 现 ; 

(2) 健全 性 (Soundness): GA 空间 中 的 染色 体能 对 应 所 有 问题 空间 中 的 候选 解 ; 

(3) JEA CNonredundancy) : 染色 体 和 候选 解 一 一 对 应 。 

下 面 介 绍 几 种 常见 的 编码 机 制 。 


1. 二 进 制 编码 

二 进 制 编码 的 采用 得 到 了 Holland 早期 理论 结果 (Schema 定理 .最 小 字母 表 原 理 ) 的 支 
持 , 它 是 遗传 算法 中 最 常用 的 一 种 编码 方法 。 它 具有 下 列 一 些 优点 : 

(1) 编码 .解码 操作 简单 易 行 ; 

(2) 交叉 .变异 操作 便于 实现 ; 

(3) 符合 最 小 字符 集 编码 原则 ; 

(4) 便于 利用 模式 定理 对 算法 进行 理论 分 析 。 

当然 它 也 有 许多 不 足 之 处 。 


2. 格雷 码 编码 

对 于 一 些 连 续 优 化 问题 ,二 进 制 编码 由 于 遗传 算法 的 随机 特性 而 使 其 局 部 搜索 能 力 较 
差 。 为 改进 这 一 特性 ,人 们 提出 用 格雷 码 进行 编码 。 格 雷 码 编码 方法 是 二 进 制 编 码 方法 的 
一 种 变形 。 它 是 这 样 的 一 种 编码 方法 ,其 连续 的 两 个 整数 所 对 应 的 编码 值 之 间 仅 仅 只 有 一 


个 码 位 是 不 相同 的 ,其 余 位 都 完全 相同 。 假 设 有 一 个 二 进 制 码 为 B 二 6,0,-1…0bs01，, 其 对 应 
的 格雷 码 为 G5 ggw-1…g2g1; 则 : 
Bm = Om 

(8.1) 


gi = bu Ob i= m—1,m—2,°,1 
格雷 码 有 这 样 一 个 特点 : 任意 两 个 整数 的 差 是 这 两 个 整数 所 对 应 的 格雷 码 之 间 的 汉 明 
距离 ,这 一 特点 是 遗传 算法 中 使 用 格雷 码 来 进行 个 体 编 码 的 主要 原因 。 格 雷 码 除了 具有 二 
进 制 编码 的 优点 外 ,还 能 提高 遗传 算法 的 局 部 搜索 能 力 。 


3. 实数 编码 
对 于 一 些 多 维 、 高 精度 要 求 的 连续 函数 优化 问题 ,使 用 二 进 制 编码 来 表示 个 体 将 会 带 来 
一 些 不 利 , 例 如 ,二 进 制 编码 存在 着 连续 函数 离散 化 时 的 映射 误差 ,同时 不 便于 反映 所 求 问 
题 的 特定 知识 。 为 了 克服 这 些 缺 点 ,人 们 提出 实数 编码 方法 , 即 个 体 的 每 个 基因 值 用 实数 表 
示 。 实 数 编码 方法 的 优点 如 下 : 
(1) 适合 遗传 算法 中 表示 范围 较 大 的 数 ; 
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(2) 便于 较 大 空间 的 遗传 搜索 ; 

(3) 提高 了 遗传 算法 的 精度 要 求 ; 

(4) 改善 了 遗传 算法 的 计算 复杂 性 ,提高 了 运算 效率 ; 
(5) 便于 算法 与 经 典 优化 方法 的 混合 作用 ; 

(6) 便于 设计 专门 问题 的 遗传 算 子 。 


4. 符号 编码 

符号 编码 是 指 染 色 体 编码 串 中 的 基因 值 取 自 一 个 无 数值 含义 ,而 只 有 代码 含义 的 符号 
集 。 这 些 符号 可 以 是 字符 ,也 可 以 是 数字 。 例 如 ,对 于 旅行 商 问 题 ,假设 有 ?7 个 城市 分 别 记 
为 C1，Cs,……，C,; 则 [LCi，C;,…， CG, ] 就 可 构成 一 个 表示 旅行 路 线 的 个 体 。 符 号 编码 的 主 
要 优点 是 便于 在 遗传 算法 中 利用 所 求 问题 的 专门 知识 及 相关 算法 。 

如 果 采 用 非 二 进 制 编码 ,那么 关于 染色 体 编码 与 问题 解 之 间 的 关系 ,存在 三 个 关键 
问题 ， 

(1) 染色 体 的 可 行 性 ; 

(2) 染色 体 的 合法 性 ; 

(3) 映射 的 唯一 性 。 

可 行 性 是 指 染 色 体 编码 成 为 解 之 后 是 否 在 给 定 问题 的 可 行 域内 。 染 色 体 的 可 行 性 概念 
源 于 约束 优化 问题 ,无 论 是 传统 方法 还 是 遗传 算法 都 必须 满足 约束 。 对 于 许多 优化 问题 ,可 
行 域 是 用 等 式 或 不 等 式 组 来 表达 的 。 在 这 种 情况 下 ,许多 有 效 的 惩罚 法 可 用 来 消除 不 可 行 
的 染色 体 。 在 约束 优化 问题 中 ,最 优点 通常 位 于 可 行 域 的 边界 上 ,惩罚 法 将 迫使 遗传 搜索 从 
可 行 域 和 不 可 行 域 两 边 同 时 通 近 最 优点 。 

合法 性 是 指 染 色 体 编码 是 否 代表 给 定 问题 的 一 个 解 。 染 色 体 的 合法 性 概念 源 于 编码 技 
术 。 许 多 组 合 优化 问题 采用 了 问题 专用 的 编码 方法 ,这 些 编码 方法 采用 单 断 点 交叉 可 能 会 
获得 非法 的 后 代 。 由 于 非法 的 染色 体 不 能 成 为 解 ,这 样 的 染色 体 不 能 进行 评估 ,因此 惩罚 法 
就 无 法 适用 。 这 种 情况 下 ,通常 采用 修复 方法 ,将 非法 染色 体 转换 为 合法 染色 体 。 例 如 , 著 
名 的 部 分 映射 交叉 算 子 (Partially Matched Crossover，PMX) 就 是 为 解决 单 断 点 交叉 的 非 
法 性 而 提出 的 一 种 将 替代 编码 和 修复 技术 结合 起 来 的 双 断 点 交叉 方法 。 

此 外 ,为 了 缓解 二 进 制 编码 带 来 的 “组 合 爆炸 ?和 GA 的 早熟 收敛 问题 ,出 现 了 多 值 编 
码 、 实 值 编码 .区间 值 编码 .Delta 编码 ,对称 编码 .独立 编码 和 十 进 制 编码 。 


8.3.3 遗传 算法 的 主要 算 子 


遗传 算 子 最 重要 的 算 子 有 三 种 : 选择 (Selection) 交叉 (Crossover)、 变异 (Mutation ) 。 
选择 体现 “ 适 者 生存 ”的 原理 ,通过 适应 值 选择 优质 个 体 而 抛弃 劣质 个 体 。 交 又 能 使 个 体 之 
间 的 遗传 物质 进行 交换 从 而 产生 更 好 的 个 体 。 变 异 能 恢复 个 体 失 去 的 或 未 开发 的 遗传 物 
质 ,以 防止 个 体 在 形成 最 优 解 过 程 中 过 早 收 敛 。 

1. 选择 算 子 

选择 算 子 也 称 复 制 (Reproduction) 算 子 、 繁 殖 算 子 。 它 的 作用 在 于 根据 个 体 的 优 劣 程 
度 决 定 它 在 下 一 代 是 被 淘汰 还 是 被 复制 。 一 般 地 说 ,通过 选择 ,将 使 适应 度 即 优良 的 个 体 有 
较 大 的 存在 机 会 ,而 适应 度 小 即 低劣 的 个 体 继 续 存 在 的 机 会 也 较 小 。 选 择 操 作 的 主要 目的 
是 为 了 避免 基因 缺失 、 提 高 全 局 收敛 性 和 计算 效率 。 
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是 遗传 算法 的 推动 力 。 选 择 压 力 是 一 个 内 含 的 准则 ,压力 过 大 搜索 会 过 早 终止 ; 压 

力 过 小 搜索 又 会 不 必要 地 缓慢 。 一 般 说 来 ,算法 的 初始 阶段 宜 采 用 低 的 选择 压力 ,这 有 利于 
扩展 搜索 空间 ;而 在 终止 阶段 采用 较 高 的 选择 压力 ,这 有 利于 找到 最 好 的 解 域 ,这 样 选择 就 
能 将 遗传 搜索 引 向 最 优 解 。 选 择 操作 的 任务 就 是 按 某 种 方法 从 父 代 群 体 中 选取 一 些 个 体 ， 
遗传 到 下 一 代 和 群体。 选择 包括 两 个 基本 方面 。 

(1) 选择 空间 : 选择 过 程 可 以 基于 全 部 或 者 部 分 双亲 和 后 代 来 产生 下 一 代 的 新 种 群 。 
令 PopSize 为 种 群 的 大 小 ,offSize 为 每 代 产 生 的 后 代数 。 一 般 的 选择 空间 的 大 小 为 
PopSize, 含 有 所 有 后 代 和 部 分 双亲 。 扩 大 的 选择 空间 的 大 小 为 PopSize 十 offSize, 含 有 所 有 
后 代 和 双亲 。 

D 选择 算 子 : 选择 算 子 是 关于 如 何 从 选择 空间 中 选择 染色 体 的 理论 ,一 般 有 赌 盘 选 
择 (Roulette Wheel Selection) .确定 选择 ,混合 选择 。 三 种 不 同 种 类 的 选择 算 子 在 特定 的 领 
hs AT EK 

O 赌 盘 选 择 ,又 称 比 例 选择 方法 。 其 基本 思想 是 : 各 个 个 体 被 选中 的 概率 与 其 适应 度 
大 小 成 正比 。 在 遗传 算法 中 ,整个 群体 被 各 个 个 体 所 分 割 ,各 个 个 体 的 适应 度 在 全 部 个 体 的 
适应 度 之 和 中 所 占 比 例 也 大 小 不 一 ,这 个 比例 值 瓜分 了 整个 赌 盘 盘 面 ,它们 也 决定 了 各 个 个 
体 被 遗传 到 下 一 代 群 体 中 的 概率 。 显 然 ,个体 适应 度 越 高 ,被 选中 的 概率 越 大 。 

按 个 体 适应 度 在 整个 群体 适应 度 中 所 占 的 比例 确定 该 个 体 的 被 选择 概率 。 若 设 种 群 数 
为 NN, 个 体 i 的 适应 度 为 (让, 则 可 计算 出 个 体 i 被 选取 的 概率 P; 和 该 个 体 的 累计 概率 Q;， 
该 累计 概率 和 产生 [0,1j] 之 间 的 均匀 随机 数 x 比较 决定 哪个 个 体 参加 交配 。 个 体 i 选择 概 
R P: 和 累计 概率 Q; 的 计算 公式 为 : 


p= _, - yp, G = 1,258) (8. 2) 
之 fD 
WR r< Q ,就 选 第 1 个 个 体 ,否则 选 第 i 个 个 体 ,第 i 个 个 体 满足 Q- rQ. 
图 8. 2 为 选择 概率 区 间 示 意图 ,用 数 轴 可 表示 为 在 数 轴 上 的 [0,1] 区 间 上 ,分 为 N 个 区 
fal: 第 1 个 区 间 为 L0,，P] BOLO, Qi ,第 2 个 区 间 为 LP ，P 十 P] 即 LQ ，Q Jere 第 i 个 


区 间 为 [ 已， Dr, JMR QJ 第 N 个 区 间 为 [ DP, 1] 即 [av , 1]. 
ane 1 | 2 | aa | i | A: i N | 
+ x 0 P, PHP: il i N-i o 
累计 概率 O) (oj … 名 per 各 
(Q) (2) (Qx) 


图 8.2 选择 概率 区 间 示 意图 


图 8. 3 是 一 个 简单 的 赌 盘 选择 的 例子 ,对 4 个 个 体 使 用 一 次 赌 盘 选择 的 方式 进行 选择 ， 
选取 概率 为 (13%, 35%, 15%, 37%). BEIL 0.67 落 在 了 个 体 4 的 段 内 ,本 次 选择 
TTEA 

四 pila IMPTE Stochastic Universal Sampling)。 这 种 方法 提供 了 有 零 偏差 和 最 小 
个 体 扩展 。 设 定 需 要 选择 的 个 体 数目 为 n, 等 距离 选择 个 体 ,选择 指针 距离 为 1/n, 第 一 个 指 
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被 选中 的 个 体 个 体 1 个 体 2 个 体 3 ^0.67 个 体 4 


个 体 概率 13% 35% 15% 37% 
累计 概率 13% 48% 63% 100% 
图 8.3 一 个 简单 的 赌 盘 选择 示例 


针 的 位 置 由 [L 0,1/nj] 区 间 的 均匀 随机 数 决 定 。 

© 截断 选择 法 (Truncation Selection) 。 个 体 按 适应 度 由 高 到 低 排 序 , 只 有 在 截断 闽 值 
之 上 的 个 体 才 被 选择 ,其 中 截断 间 值 是 指 被 选 的 百分比 , 取 值 范围 为 50% 一 10%% ,在 阔 值 之 
外 的 个 体 不 能 产生 子 个 体 。 这 种 方法 是 一 种 人 工 选 择 方法 ,适合 大 种 群 。 

@ 锦标 赛 选择 法 (Tournament Selection) 。 这 种 方法 随机 地 选择 n AE Cn 为 竞赛 规 
模 ) ,然后 选择 最 好 的 个 体 作 为 父 个 体 ,重复 选取 直到 选择 所 需 数 目的 父 个 体 。 

不 同 的 选择 方法 的 行为 是 有 差别 的 ,基本 遗传 算法 达到 收敛 的 世代 数 和 选择 强度 成 反 
比 , 较 高 的 选择 是 很 好 的 选择 方法 ,但 太 高 会 导致 收敛 太 快 , 解 的 质量 差 。 最 小 限度 的 种 群 
大 小 往往 依赖 于 目标 函数 的 维 数 和 选择 强度 ,而 选择 强度 又 与 选择 参数 (如 选择 压力 截断 
闵 值 竞争 赛 规模 ) 有 关 。 锦 标 赛 选择 法 只 能 赋 离 散 值 ,线性 排序 选择 法 只 允许 较 小 区 间 值 
的 选择 强度 。 截 断 选择 会 导致 比 排序 选择 和 锦标 赛 选 择 更 高 的 多 样 性 损失 。 排 序 选择 与 锦 
标 赛 选择 比较 相似 ,但 是 排序 选择 往往 用 在 锦标 赛 选择 法 因 其 离散 性 不 能 发 挥 作 用 的 场合 。 
对 于 同样 的 选择 强度 ,截断 选择 的 选择 方差 比 排序 选择 和 锦标 赛 选择 小 。 


2. 交叉 算 子 

交叉 算 子 又 称 重组 (Recombination) .配对 (Breeding) 算 子 ,是 指 对 两 个 相互 配对 的 染 
色 体 按 某 种 方式 相互 交换 其 部 分 基因 ,从 而 形成 两 个 新 的 个 体 。 遗 传 算法 的 有 效 性 主要 来 
自选 择 和 交叉 操作 ,尤其 是 交叉 ,在 遗传 算法 中 起 着 核心 作用 , 它 决定 了 遗传 算法 的 全 局 搜 
索 能 力 。 

当 许 多 染色 体 相同 或 后 代 的 染色 体 与 上 一 代 没 有 多 大 差别 时 ,可 通过 染色 体重 组 来 产 
生 新 一 代 染 色 体 。 染 色 体 重组 分 两 个 步骤 进行 : 首先 ,在 新 复制 的 群体 中 随机 选取 两 个 染 
色 体 ,每 个 染色 体 由 多 个 位 (基因 ) 组 成 ;然后 , 沿 着 这 两 个 染色 体 的 基因 随机 取 一 个 位 置 ,二 
者 互 换 从 该 位 置 起 的 末尾 部 分 基因 。 交 叉 算 子 的 设计 包括 两 个 方面 的 内 容 : 一 是 如 何 确定 
交叉 点 的 位 置 , 二 是 如 何 进 行 部 分 基因 的 交换 。 下 面 介绍 几 种 适用 于 二 进 制 编码 或 实数 编 
码 的 交叉 算 子 。 

(1) 单 点 交叉 (Single Point Crossover) ,又 称 为 简单 交叉 。 它 是 指 在 个 体 编码 串 中 随机 
设置 一 个 交叉 点 ,然后 在 该 点 相互 交换 两 个 配对 个 体 的 部 分 基因 。 

单 点 交叉 是 遗传 算法 经 常 使 用 的 交叉 算 子 , 即 从 群体 中 随机 取出 两 个 字符 串 , 设 串 长 为 
L, 随 机 确定 交叉 点 , 它 在 1 到 工 一 1 间 的 正 整 数 取 值 。 于 是 ,将 两 个 串 的 右 半 段 互 换 再 重新 
连接 得 到 两 个 新 串 。 当 然 ,得 到 的 新 串 不 一 定 都 能 保留 在 下 一 代 , 需 和 原来 的 串 ( 亲 本 ) 进 行 
比较 ,保留 适应 度 大 的 两 个 。 

用 字 串 的 方式 表示 : 设 有 两 个 用 二 进 制 编码 的 个 体 A 和 B, 长 度 L=5,A= 
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aiazasasas ,也 一 站 0203005 。 随 机 选择 一 个 整数 AE[L1, 工 一 1], 设 & 一 4, 即 A=a,a,4; azas, 
也 一 Op020s | by bs ,经 交叉 后 变 为 A’=aiazasbsbs »B’ =b, by b; asas Š 
用 表格 方式 表示 单 点 交叉 ,如 图 8.4 所 示 。 


ojolololilo olololololo 
交叉 点 一 一 一 交叉 点 
1|o|oljololo | 1f{o]o]fo |i fo 


图 8.4 单 点 交叉 示例 图 


(2) 双 点 交叉 (Two Point Crossover) 的 具体 操作 过 程 是 : 
O 在 相互 配对 的 两 个 个 体 编码 串 中 随机 设置 两 个 交叉 点 ; 
@ 交换 两 个 交叉 点 之 间 的 基因 。 
(3) 均匀 交叉 (Uniform Crossover) 是 指 两 个 配对 个 体 的 每 一 位 基因 都 以 相同 的 概率 进 
行 交 换 , 从 而 形成 两 个 新 个 体 。 具 体操 作 过 程 如 下 : 
O 随机 产生 一 个 与 个 体 编 码 长 度 相 同 的 二 进 制 屏蔽 字 W5 w w ws 
© 按 下 列 规则 从 A、B 两 个 父 代 个 体 中 产生 两 个 新 个 体 X、Y: Fw; = 0.0 X 的 第 i 个 
基因 继承 A 的 对 应 基因 ,Y 的 第 i 个 基因 继承 B 的 对 应 基因 ;车 wi 二 1, 则 A、B 的 第 i 个 基 
因 相 互 交换 ,从 而 生成 X、Y 的 第 i 个 基因 。 
(4) 算术 交叉 (Arithmetic Crossover) 是 指 由 两 个 个 体 的 线性 组 合 而 产生 出 新 的 个 体 。 
设 在 两 个 个 体 A、B 之 间 进 行 算术 交叉 , 则 交叉 运算 后 生成 的 两 个 新 个 体 X、Y 为 : 
X 一 aoA 十 (1 一 a)B 
Y=aB+(1—a)A 
其 中 参数 a, 可 以 是 一 个 常数 ,也 可 以 是 一 个 由 迭代 数 所 决定 的 变量 。 


3. BRAT 

所 谓 变异 算 子 ,是 指 在 选择 和 交叉 算 子 基本 上 完成 了 遗传 算法 的 大 部 分 搜索 功能 ,将 个 
体 编码 串 中 的 某 些 基因 值 用 其 他 基因 值 来 替换 ,从 而 形成 一 个 新 的 个 体 ,是 一 种 防止 算法 里 
熟 的 措施 。 遗 传 算法 中 的 变异 运算 是 产生 新 个 体 的 辅助 方法 ,但 它 是 必 不 可 少 的 一 个 运算 
步骤 ,增加 了 遗传 算法 找到 接近 最 优 解 的 能 力 。 变 异 运 算是 以 很 小 的 概率 ,随机 改变 字符 串 
某 个 位 置 上 的 值 ,决定 了 遗传 算法 的 局 部 搜索 能 力 。 交 又 运算 和 变异 运算 的 相互 配合 ,共同 
完成 对 搜索 空间 的 全 局 搜索 和 局 部 搜索 。 变 异 运 算 的 设计 包括 两 方面 : 一 是 如 何 确定 变异 
点 的 位 置 ,二 是 如 何 进行 基因 值 替 换 。 下 面 介绍 几 种 常用 的 变异 操作 方法 ,它们 适用 于 二 进 
制 编码 和 实数 编码 的 个 体 。 

(1) 基本 位 变异 : 它 是 指 对 个 体 编码 串 以 变异 概率 p 随机 指定 某 一 位 或 菜 几 位 基因 作 
变异 运算 。 即 在 二 进 制 编码 中 ,就 是 将 0 变 成 1, 将 1 变 成 0。 

在 GA, 即 为 0 与 1 互 换 : 0 突变 为 1,1 突变 为 0, 如 图 
| 8.5 所 示 。 一 般 认 为 ,变异 算 子 重要 性 次 于 交叉 算 子 ,但 其 作 
OPO PTO TO | 用 也 不 能 忽视 。 例 如 , 若 在 某 个 位 置 上 ,初始 群体 所 有 串 都 
图 8.5 基本 位 变异 示例 图 ” 取 0, 但 最 优 解 在 这 个 位 置 上 却 取 1, 于 是 只 通过 交换 达 不 到 
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0; 0; 0; 0] 1 0 


1 而 突变 则 可 做 到 。 

(2) 均匀 变异 : 它 是 指 分 别 用 符合 茶 一 范围 内 均匀 分 布 的 随机 数 ,以 某 一 较 小 的 概率 
来 蔡 换 个 体 中 每 个 基因 。 

(3) 高 斯 变异 : 它 是 指 进行 变异 操作 时 ,用 均值 为 yy, 方差 为 的 正 态 分 布 的 一 个 随机 
数 来 替换 原 有 基因 值 。 具 体操 作 过 程 与 均匀 变异 类 似 。 


(4) 二 元 变异 : 它 的 操作 需要 两 条 染色 体 参 与 ， 01j0101 E E 
两 条 染色 体 通过 二 元 变异 操作 后 生成 两 条 新 个 体 。 | aa 
11010001 10111010 “ 异 或 ” 运算 


新 个 体 中 的 各 个 基因 分 别 取 原 染色 体 对 应 基因 值 的 
同 或 / 异 或 ,如 图 8.6 所 示 。 

二 元 变异 算 子 改进 了 传统 的 变异 方式 ,有 效 地 克服 了 早熟 收 伊 , 提 高 了 遗传 算法 的 优化 
速度 。 

4. 最 优 个 体 保留 方法 

最 优 个 体 保留 方法 的 基本 思想 是 : 当前 群体 中 适应 度 最 高 的 个 体 不 参与 交 又 和 变异 运 
算 ,而 是 用 它 来 替换 本 代 群 体 中 经 过 交叉 ,变异 后 所 产生 的 适应 度 最 低 的 个 体 。 该 方法 可 保 
证 迄今 为 止 所 得 到 的 最 优 个 体 不 会 被 交叉 、 变 异 操 作 所 破坏 , 它 是 遗传 算法 收敛 性 的 一 个 重 
要 保证 条 件 。 另 一 方面 , 它 也 容易 使 得 局 部 最 优 个 体 不 易 被 淘汰 ,从 而 使 算法 的 全 局 搜索 能 
力 不 强 。 因 此 ,该 方法 一 般 与 其 他 选择 操作 配合 使 用 , 方 可 有 良好 的 效果 。 


8.3.4 遗传 算法 的 适应 度 函 数 


优胜 劣 汰 是 自然 进化 的 原则 。 优 、 劣 要 有 标准 。 在 GA 中 用 适应 度 函 数 描述 每 一 个 体 
的 适宜 程度 。 适 应 度 函 数 也 叫 评价 函数 ,是 用 来 判断 群体 中 的 个 体 的 优 劣 程度 的 指标 , 它 是 
根据 所 求 问题 的 目标 函数 来 进行 评估 的 。 引 进 适 应 度 函 数 的 目的 在 于 可 根据 其 适应 度 对 个 
体 进 行 评估 比较 , 定 出 优 劣 程度 。 遗 传 算法 在 搜索 进化 过 程 中 一 般 不 需要 其 他 外 部 信息 , 仅 
用 评估 函数 来 评估 个 体 或 解 的 优 劣 ,并 作为 以 后 遗传 操作 的 依据 。 

适应 度 函 数 设计 直接 影响 到 遗传 算法 的 性 能 。 一 般 来 讲 适应 度 函 数 的 设计 主要 满足 以 
下 条 件 : 

(1) 单 值 、 连 续 、 非 负 、 适 应 度 越 大 越 好 ; 

(2) 设计 的 合理 性 .一 致 性 ; 

(3) 设计 尽 可 能 简单 ,计算 量 小 ; 

(4) 具有 较 强 的 通用 性 。 

在 具体 应 用 中 ,适应 度 函 数 的 设计 要 结合 求解 问题 本 身 的 要 求 而 定 。 对 优化 问题 ,适应 
度 函 数 就 是 目标 函数 。 如 果 选 择 算 子 采 取 随 机 选择 算 子 则 适应 度 函 数 需 要 是 一 个 递增 函 
数 ,适应 度 函 数值 越 大 代表 该 染色 体 遗 传 到 下 一 代 的 可 能 性 越 大 。 此 时 目标 函数 如 果 是 求 
最 大 值 则 刚好 和 适应 度 函 数 单调 性 相同 , 则 目标 函数 可 以 直接 采用 作为 适应 度 函 数 。 但 是 ， 
如 果 目 标 函数 是 求 最 小 值 , 则 需要 对 目标 函数 作 单调 性 处 理 , 使 其 成 为 一 个 递增 函数 。 适 应 
值 函数 的 选择 对 算法 的 收敛 性 以 及 收敛 速度 的 影响 较 大 , 故 针 对 不 同 的 问题 需 根据 经 验 来 
确定 相应 的 参数 。 如 对 极 小 化 问题 而 言 ,考虑 函数 在 搜索 点 的 函数 值 及 其 变化 率 , 并 将 该 信 
息 加 入 适应 值 函数 ,使 得 按 概 率 选择 的 染色 体 不 但 具有 较 小 的 函数 值 ,而 且 具 有 较 大 的 函数 
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图 8.6 二 元 变异 示例 图 


变化 率 值 。 在 GA 中 适应 度 函 数 的 值 域 常 取 为 [0,1]。 
8.4 遗传 算法 计算 过 程 和 应 用 


8.4.1 遗传 算法 计算 过 程 


首先 需要 实现 从 表现 型 到 基因 型 的 映射 即 编码 工作 ,将 实际 问题 转化 到 编码 空间 ,产生 
初始 种 群 之 后 ,按照 适 者 生存 和 优胜 劣 汰 的 原理 , 逐 代 演化 产生 出 越 来 越 好 的 近似 解 。 在 每 
一 代 , 根 据 问题 域 中 个 体 的 适应 度 大 小 挑选 个 体 , 并 借助 于 自然 遗传 学 的 遗传 算 子 -进行 组 
合 交叉 和 变异 ,产生 出 代表 新 的 解 集 的 种 群 。 这 个 过 程 将 导致 种 群像 自然 进化 一 样 的 后 生 
代 种 群 比 前 代 更 加 适应 于 环境 ,这 样 经 过 若干 代 之 后 ,算法 收敛 于 最 好 的 染色 体 , 它 很 可 能 
就 是 问题 的 最 优 解 或 次 优 解 。 末 代 种 群 中 的 最 优 个 体 经 过 解码 ,可 以 作为 问题 近似 最 优 和解 。 
遗传 算法 的 计算 过 程 为 : 选择 编码 方式 一 产生 初始 群体 一 计算 初始 群体 的 适应 度 值 一 如 果 
不 满足 条 件 { 选 择 一 交叉 一 变异 一 计算 新 一 代 群 体 的 适应 度 值 ), 如 图 8.7 所 示 。 


开始 


输入 原始 数据 ， 设 gen 为 迭代 数 ， gen=1 


染色 体 编码 ”产生 初始 种 群 


计算 种 群 中 每 个 个 体 的 适应 度 值 。 一 


gen=gen+1 


图 8.7 基本 遗传 算法 过 程 


8.4.2 遗传 算法 参数 选择 


GA 的 参数 选择 包括 群体 规模 ,编码 规则 、 交 又 和 变异 概率 、 适 应 度 函 数 形式 、 收 敛 判 据 
等 。 由 于 参数 选择 关系 到 GA 的 精度 、 可 靠 性 和 计算 时 间 等 诸多 因素 ,并 且 影 响 到 结果 的 质 
量 和 系统 性 能 ,因此 要 尽 可 能 合理 地 选择 参数 。 

(1) 种 群 数量 : 群体 规模 影响 遗传 优化 的 最 终结 果 以 及 遗传 算法 的 执行 效率 。 当 种 群 
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数量 太 小 时 ,遗传 算法 的 优化 性 能 一 般 不 会 太 好 ,种 群 数量 较 大 则 可 减少 遗传 算法 陷入 局 部 
最 优 解 的 几率 ,但 也 意味 着 计算 复杂 度 变 大 ,效率 变 低 ,一 般 的 取 值 在 10~160 之 间 , 增 量 
为 10 ,具体 的 种 群 数量 根据 具体 情况 有 所 不 同 。 

(2) 编码 方法 : 当 采 用 自然 数 编码 时 ,从 理论 上 可 以 证 明 GA 的 最 优 群体 规模 的 存在 
性 ,并 给 出 相应 的 计算 方法 。 一 个 有 效 解 的 编码 一 旦 确定 了 ,一 般 就 确定 交叉 和 变异 算 
wT. 

(3) 确定 交叉 和 变异 概率 : 

D 交叉 概率 P.。 交 叉 概 率 的 选择 决定 了 交叉 操作 的 频率 ,频率 越 高 可 以 越 快 地 收敛 
到 最 优 解 区 域 , 但 过 高 的 频率 也 可 能 导致 收敛 于 一 个 解 。 若 交叉 概率 太 低 ,遗传 算法 搜索 可 
能 陷入 迟钝 状态 。 一 般 P. 的 取 值 在 0.25 一 1. 00 之 间 。 

O 变异 概率 P,,。 变 异 概率 通常 只 取 较 小 的 数值 ,通常 为 0. 001 左右 。 一 般 而 言 ,低频 
度 的 变异 可 防止 群体 中 重要 的 .单一 基因 的 可 能 丢失 ; 若 取 较 高 的 变异 概率 将 使 遗传 算法 趋 
于 纯粹 的 随机 搜索 ,一 方面 会 增加 样本 模式 的 多 样 性 , 另 一 方面 也 可 能 引起 不 稳定 。 传 统 都 
是 静态 人 工 设 置 ,而 现在 有 人 提出 动态 参数 的 设置 方法 ,以 减少 人 工 选择 参数 的 困难 和 盲目 
性 。 交 叉 和 变异 概率 越 大 , 则 算法 的 探测 能 力 越 强 , 越 容易 探测 到 新 的 超 平 面 ,而 个 体 的 平 
均 适 应 值 波动 较 大 ;相反 ,交叉 和 变异 概率 越 小 , 则 算法 的 开发 能 力 越 强 , 使 得 较 优 个 体 不 易 
被 破坏 ,而 个 体 的 平均 适应 值 波动 较 小 。 

(4) 适应 度 函 数 ; 设计 出 适应 度 函 数 , 这 很 重要 ,因为 它 决 定 着 算法 进化 的 方向 ,最 终 
影响 算法 效率 ,如 果 设 计 得 好 ,可 能 很 快 就 能 收敛 到 较 好 的 解 ,如 果 设 计 不 好 ,很 可 能 不 能 进 
化 。 适 应 度 函 数 选择 显然 要 和 目标 函数 相对 应 。 

(5) 收敛 判 据 : GA 是 一 种 反复 迭代 的 搜索 方法 , 它 通过 多 次 进化 逐渐 台 近 最 优 解 而 不 
是 恰好 等 于 最 优 解 ,因此 需要 确定 收敛 判 据 。 目 前 采用 的 GA 收敛 判 据 有 多 种 ,如 根据 遗传 
迭代 的 代数 所 确定 的 判 据 ;或 者 根据 解 的 质量 确定 的 判 据 , 如 连续 几 次 得 到 的 最 优 个 体 的 适 
应 值 没有 变化 或 变化 很 小 时 , 则 认为 GA 收敛 了 ;或 者 种 群 中 最 优 个 体 的 适应 值 与 平均 适应 
值 之 差 与 平均 适应 值 的 百分数 之 比 小 于 某 一 给 定 允 许 值 等 等 。 

由 于 评估 函数 .变异 系数 .种群 大 小 .交叉 和 变异 方法 等 问题 与 收敛 速度 的 关系 难以 找 
到 定量 的 描述 ,比如 ,变异 系数 找 得 不 合理 ,或 以 上 问题 处 理 不 好 收敛 会 很 慢 甚 至 不 会 收敛 ， 
可 能 就 得 不 到 解 。 所 以 遗传 算法 的 难点 就 在 于 合理 的 参数 选择 。 


8.4.3 遗传 算法 实例 应 用 


求 函数 fo) = 2° 的 最 大 值 ,变量 xz 在 0~31 之 间 的 整数 取 值 。 

用 GA 解 此 问题 ,容易 想到 将 决策 变量 x 取 的 值 以 二 进位 数 表 示 从 而 得 到 一 种 自然 的 
编码 ;每 一 个 体 均 为 长 度 是 5 的 二 进 制 位 串 , 初 始 群 体 的 容量 取 4。 于 是 ,从 总 体 中 随机 抽 
取 4 个 个 体 组 成 第 一 代 群 体 , 即 初始 群体 。 具 体操 作 可 通过 掷 硬币 确定 。 例 如 ,将 一 枚 硬币 
连续 掷 20 次 ,或 指定 了 顺序 的 5 枚 硬币 各 掷 4 次 ,正面 为 1, 反 面 为 0, 得 4 个 5 位 二 进 制 字 
符 串 ,不 妨 记 为 (01101) (11000)、 (01000) (10011)。GA 采取 按 适应 度 大 小 比例 进行 选择 
的 机 制 , 则 可 用 专门 设计 的 简易 轮 盘 来 决定 第 一 代 群 体 中 哪个 个 体能 被 保留 。 结 果 如 
表 8.1 所 示 。 
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C1) 遗传 第 一 代 计 算 过 程 如 表 8. 1、 表 8.2 所 示 。 
表 8.1 第 一 代 群 体 的 选择 


i No 初始 群体 a 实际 生存 数 
(随机 生成 ) pa (由 轮 盘 决定 ) 
1 01101 0.576 1 
2 11000 .968 2 
3 01000 0. 220 0 
4 10011 236 1 
和 4. 000 4 
平均 000 1 
max 968 2 


表 8.2 第 一 代 个 体 交 叉 过 程 


选择 后 的 配 到 交叉 点 
RD | cag ke sae i jah a) | ( 随 ne ) jedan ) | 新 种 群 | 
1 0110|1 4 01100 12 144 
2 1100|0 E) 4 11001 25 625 
3 11 |000 2 11011 27 729 
4 10|011 2 10000 16 256 
max | | 729 


突变 率 取 为 0. 01 ,这 意味 着 每 1000 位 平均 有 10 位 产生 突变 。 本 例 的 群体 只 包含 4 个 
5 位 的 字符 串 共 20 位 ,平均 只 有 2 个 位 可 能 产生 突变 。 于 是 ,经 过 选择 、 交 换 完成 了 一 代 的 
遗传 。 事 实证 明 , 第 二 代 群 体 的 质量 有 了 明显 的 提高 ,平均 适应 度 由 293 增加 为 439 ,最 大 
适应 度 由 576 增加 到 729。 在 此 基础 上 可 以 继续 进行 遗传 操作 ,根据 收敛 判 据 ,达到 最 大 的 
遗传 代数 (此 例 数据 较 少 ,假设 最 大 迭代 数 为 5)。 

(2) 遗传 第 二 代 计 算 过 程 如 表 8. 3、 表 8.4 所 示 。 

由 于 所 有 个 体 的 第 三 位 都 是 0, 所 以 若是 单纯 用 交叉 而 没有 用 变异 ,那么 遗传 多 少 代 都 
只 能 得 到 27(11011) 次 优 解 ,而 无 法 得 到 最 优 解 31(11111) 。 因 此 ,随机 挑选 一 个 个 体 ,个 体 
3 进行 变异 ,把 第 三 位 的 0 变 成 1, 即 28(11100) ,再 进行 遗传 。 

(3) 遗传 第 三 代 计 算 过 程 如 表 8. 5、 表 8.6 所 示 。 


e IS 


表 8.3 第 二 代 群 体 的 选择 


H No 初始 群体 en nf ; 实际 生存 数 
(第 二 代 ) 3 Det (由 轮 盘 决定 ) 
1 01100 2 0. 082 0. 328 0 
2 11001 5 0. 356 1.424 1 
3 11011 7 0.416 1. 664 2 
4 10000 16 0. 146 0.584 1 
和 1. 000 4. 000 4 
平均 0.25 1. 000 1 
max 0.416 1. 664 2 
表 8.4 第 二 代 个 体 交 叉 过 程 
ETE a rae 
NG em ji ees wae | | ate 
1 110{01 | 2 3 11011 27 729 
2 110{11 1 3 11001 25 625 
3 11|011 4 2 11000 24 576 
4 10|000 3 2 10011 19 361 
和 2291 
平均 573 
max 729 
R85 第 三 代 群 体 的 选择 
Hi No 初始 群体 a £ , nf 实际 生存 数 
(第 三 代 ) SS Se (由 轮 盘 决定 ) 
1 11011 27 0. 292 1. 168 1 
2 11001 25 0. 250 1, 000 1 
3 11100 28 0.314 1. 256 2 
4 10011 19 0.144 0. 576 0 
和 1. 000 4. 000 4 
平均 0. 25 1. 000 1 
max 0.314 1. 664 2 


表 8.6 第 三 代 个 体 交 叉 过 程 


tH No. CA 全 本 对 交叉 点 | 新 种 群 | z | r 
( 竖 线 为 交换 点 的 位 置 ) | (随机 选择 ) | (随机 选择 ) 

1 110|11 4 3 11000 24 576 

2 1100|1 3 4 11000 24 576 

3 1110|0 2 4 11101 29 841 

4 111|00 1 3 11111 31 961 
All 2954 
平均 739 
max 961 

(4) 遗传 第 四 代 计 算 过 程 , 如 表 8.7、 表 8. 8 所 示 。 

表 8.7 第 四 代 群 体 的 选择 
B No. 初始 群体 Kar L 实际 生存 数 
(第 四 代 ) 2i >i (由 轮 盘 决 定 ) 

1 11000 24 576 0.195 0. 780 

2 11101 29 841 0. 285 1. 140 

3 11000 24 576 0.195 0. 780 

4 11111 31 961 0.325 1. 300 

和 2954 1. 000 4. 000 4 

平均 739 0. 25 1. 000 

max 961 0. 325 1. 300 2 

表 8.8 第 四 代 个 体 交 叉 过 程 
选择 后 的 配 驳 WES 交叉 点 

ANo | g lepia w Pen ‘eas Bae ||| oe | eee 
1 111000 2 2 11101 29 841 

2 11|101 1 2 11000 24 576 

3 11|000 4 2 11111 31 961 

4 11/111 3 2 11000 24 576 
和 2954 
平均 739 
max 961 


根据 收敛 判 据 , 达 到 最 大 的 遗传 代数 5, 可 以 得 到 最 优 解 为 31(11111) 。 
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8.5 小 结 


本 章 重点 阐述 了 遗传 算法 的 理论 技术 和 应 用 ,主要 内 容 包 括 遗 传 算法 的 概述 .遗传 算法 
的 特点 与 应 用 领域 .遗传 算法 的 理论 与 技术 、 遗 传 算法 的 术语 和 遗传 算法 的 编码 规则 ,三 个 
重要 的 遗传 算法 的 算 子 、 遗 传 算 法 的 适应 度 函 数 、 遗 传 算法 的 参数 选择 方法 、 遗 传 算法 过 程 ， 
并 且 利 用 一 个 实例 描述 了 遗传 算法 的 计算 过 程 。 


.阐述 遗传 算法 的 定义 。 

. 说 明 遗 传 算 法 的 特点 。 

. 遗传 算法 的 编码 规则 有 哪些 ? 

. 遗传 算法 的 选择 算 子 有 哪些 ? 

. 说 明 遗 传 算法 的 交换 算 子 。 

. 说 明 遗 传 算法 的 变异 算 子 。 

.遗传 算法 的 适应 度 函 数 的 确定 方法 。 
. 遗传 算法 的 参数 选择 方法 。 
.说明 遗 传 算法 过 程 。 

10. 描述 一 个 遗传 算法 的 应 用 。 
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第 9 章 ”基于 局 精 理 论 的 模型 与 应 用 


模糊 数学 由 美国 控制 论 专家 L. A. Zadeh 教授 所 创立 ,他 于 1965 年 发 表 了 题 为 (模糊 集 
Bis) Fuzzy Sets”) 的 论文 ,从 而 宣告 模糊 数学 的 诞生 。 模 糊 数学 是 运用 数学 方法 研究 和 
处 理 模 糊 性 现象 的 一 门 数 学 新 分 支 。 它 以 “模糊 集合 ” 论 为 基础 ,提供 了 一 种 处 理 不 肯定 性 
和 不 精确 性 问题 的 新 方法 ,是 描述 人 脑 思 维 处 理 模 糊 信息 的 有 力 工具 。 模 糊 控 制 、 模 糊 识 
别 .模糊 聚 类 分 析 、 模 糊 决策 .模糊 评判 等 理论 与 技术 已 经 广泛 应 用 在 图 像 识 别 、 人 工 智 能 、 
自动 控制 .信息 处 理 .经 济 学 ,心理 学 .社会 学 .生态 学 .语言 学 ,管理 科学 医疗 诊断 .哲学 研 
究 等 领域 。 

本 章 将 重点 介绍 三 个 基于 模糊 理论 的 方法 : 模糊 层次 分 析 方法 ,模糊 综合 评判 方法 和 
模糊 聚 类 分 析 方 法 。 


9.1 层次 分 析 方 法 


模糊 层次 分 析 方 法 就 是 在 模糊 环境 下 使 用 的 层次 分 析 法 ,因此 首先 介绍 层次 分 析 法 。 

层次 分 析 法 (Analytic Hierarchy Process, AHP) 是 美国 著名 运筹 学 家 ,无 效 保 大 学 教 
#2 T. L. Saaty 于 20 世纪 70 年 代 提 出 的 解决 非 数 学 模型 决策 问题 的 方法 ,该 方法 从 系统 观 
点 出 发 ,把 复杂 的 问题 分 解 为 若干 层次 和 若干 要 素 ,并 将 这 些 因素 按 一 定 的 关系 分 组 ,以 形 
成 有 序 的 递 阶层 次 结构 ,通过 两 两 比较 判断 的 方式 ,确定 每 一 层次 中 因素 的 相对 重要 性 , 然 
后 在 递 阶层 次 结构 内 进行 合成 。 以 得 到 决策 因素 相对 于 目标 的 重要 性 排序 。 层 次 分 析 法 是 
一 种 定性 与 定量 分 析 相 结合 的 评价 决策 法 ,要 求 评价 者 对 评价 问题 的 本 质 .包含 要 素 及 相互 
间 的 逻辑 关系 掌握 比较 清楚 ,比较 适合 多 目标 、 多 准则 、 多 时 期 的 系统 评价 。 


9.1.1 层次 分 析 法 的 计算 步骤 


1. 第 一 步 ” 明 确 问 题 ,建立 层次 结构 

对 于 所 要 解决 的 问题 ,首先 进行 系统 分 析 , 明 确 问题 的 范围 .所 包含 的 因素 以 及 因素 之 间 
的 定性 关系 等 ,然后 根据 这 些 初 步 分 析 , 将 各 因素 分 层 分 组 ,建立 层次 结构 。 层 次 结构 是 把 问 
题 分 解 成 若干 层次 。 第 一 层 为 总 目标 ;中 间 层 可 根据 问题 的 性 质 分 成 目标 层 ( 准 则 层 )、 部 门 
层 .约束 层 等 ;最 低层 一 般 为 方案 层 或 措施 层 。 层 次 的 正确 划分 和 各 因素 间 关 系 的 正确 描述 是 
层次 分 析 法 的 关键 , 须 慎重 对 待 。 经 过 充分 的 讨论 和 分 析 ,最 后 画 出 相应 的 分 层 结构 图 。 


2. 第 二 步 ” 构 建 判断 矩阵 
根据 所 建立 的 层次 结构 ,构造 一 系列 的 判断 矩阵 。 判 断 矩 阵 表 示 针 对 上 一 层 某 元 素 , 本 
层次 与 之 有 关 的 因素 之 间 相 对 重要 性 的 比较 。 构 造成 对 比较 矩阵 ,以 层次 结构 模型 的 第 2 
层 开始 ,对 于 从 属于 上 一 层 每 个 因素 的 同一 层 诸 因 素 ,用 成 对 比较 法 和 比较 尺度 构造 成 对 比 
较 和 矩阵, 直到 最 下 层 。 可 采用 Delphi 等 调查 方法 ,向 专家 、 管 理 人 员 、 领 导 干 部 .用户 进行 比 
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较 全 面 的 综合 调查 ,对 调查 结果 汇总 分 析 后 构造 判断 矩阵 。 
车 用 ;表示 对 于 上 层 元 素 A 而 言 , 下 层 元 素 B 与 B; 相对 重要 性 的 数值 ,一 般 用 1 一 9 
及 其 倒数 的 比例 标 度 赋 值 , 其 含义 如 表 9. 1 所 示 。 
表 9.1 判断 矩阵 构造 相对 重要 性 标 度 

标 度 含 x 
表示 两 个 元 素 相 比 , 具 有 同样 的 重要 性 
表示 两 个 元 素 相 比 ,一 个 元 素 比 另 一 个 元 素 稍微 重要 
表示 两 个 元 素 相 比 ,一 个 元 素 比 另 一 个 元 素 明 显 重要 
表示 两 个 元 素 相 比 ,一 个 元 素 比 另 一 个 元 素 强 烈 重 要 

9 表示 两 个 元 素 相 比 ,一 个 元 素 比 另 一 个 元 素 极端 重要 
2.4.6.8 为 上 述 相 邻 判断 的 中 值 | 若 元 素 i 与 j 比较 得 好 , 则 元 素 j 与 比较 判断 为 6; 二 1/bs; be = 1 


aa 


3. 第 三 步 ” 层 次 单 排序 

对 各 判断 矩阵 进行 求解 ,计算 出 反映 上 层 某 元 素 和 下 层 与 之 有 联系 的 元 素 重 要 性 次 序 
的 权重 , 即 求 同 一 层次 上 的 元 素 权 系数 ,与 此 同时 还 要 对 各 判断 矩阵 进行 一 致 性 检验 。 

1) 权 向 量 计算 方法 

计算 权 向 量 的 方法 很 多 ,主要 有 和 积 法 ,宪法 和 根 法 等 。 设 判断 矩阵 元 素 为 by: 

(1) 和 积 法 。 

@ 将 判断 矩阵 每 一 列 归 一 化 。 


by = wl Sh Gj = 1,254) (9.1) 
© 对 按 列 归 一 化 的 判断 矩阵 ,再 按 行 求 和 。 
m= Sla Hise (9. 2) 
© ¥en W=CW, Ws,…,W,] 归 一 化 。 
= (9.3) 
DW 


(2) FEE 

O 将 判断 矩阵 中 的 元 素 按 行 相 乘 。 

@ 所 得 乘积 分 别 开 n 次 方 。 

© 将 方 根 向 量 正规 化 即 得 排序 所 要 求 的 特征 向 量 W。 


a)” 
w = a (9. 4) 
Zae)” 
k=1 j=l 
(3) 根 法 。 
Aw = AmaxW (9.5) 


根据 式 (9.5) 计 算 判 断 和 矩阵 4 的 特征 根 和 特征 向 量 ,将 最 大 特征 根 对 应 的 特征 向 量 作 
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为 权重 , 归 一 化 后 得 到 层次 单 排序 结果 。 
2) 一 致 性 检验 步 又 
(1) 计算 一 致 性 指标 (Consistency Index, CD: 
CI = me 一 2 (9. 6) 


当 判 断 矩 阵 具 有 完全 一 致 性 时 ,Mew 一 2, 则 CI 二 0。 当 Am n 越 大 ,CI 越 大 ,和 矩阵 的 一 
致 性 就 越 差 。 为 了 检验 判断 矩阵 是 否 满意 一 致 性 ,需要 将 CI 与 平均 随机 一 致 性 指标 
(Random Index，RI) 进 行 比较 。 

(2) 查找 相应 的 平均 随机 一 致 性 指标 RI, 如 表 9. 2 所 示 。 


表 9.2 平均 随机 一 致 性 指标 RI 的 取 值 


n 9 
RI 1.45 
(3) 计算 一 致 性 比例 CR. 
利用 一 致 性 指标 CI 和 随机 一 致 性 指标 CR 计算 一 致 性 比例 CR 
CR = El (9.7) 


RI 
当 CRO. 1 时 ,认为 判断 矩阵 的 一 致 性 是 可 以 被 接受 的 ,通过 检验 , 则 归 一 化 权 向 量 
后 , 即 得 单 排序 的 标准 权 向 量 ; 当 CRO. 1 时 , 需 重新 构造 判断 矩阵 。 


4. 第 四 步 ” 层 次 总 排序 

1) 自 上 而 下 的 综合 权重 

从 最 上 一 级 开始 , 自 上 而 下 地 求 出 各 级 中 各 要 素 关于 决策 问题 的 综合 重要 度 ( 也 称 总 体 
权重 )。 把 下 层 每 个 元 素 对 上 层 每 个 元 素 的 权 向 量 按 列 排 成 以 下 表格 形式 。 假 定 上 层 A 有 
m 个 元 素 A1，A;,…,A,, 且 其 层次 总 排序 权 向 量 为 a ，as,…,am, 下 层 BA n 个 元 素 Bi, 
Bs ,…,B,, 则 B; 对 A; 各 元 素 的 单 排序 权 向 量 5; 列 入 表 9. 3。 若 下 层 元 素 B 与 上 层 元 素 
A; 无 关系 时 , 取 bj 二 0。 


表 9.3 在 层次 总 排序 中 求 综 合 权 重 


Ai Az An 
层次 B 层 总 排序 权重 
ay az Am 
B, by by bim W = 了 
| 
B boy bi bz W, = dajby; 
7=1 
B bin bnz Dom W, = Ñ ajb, 
j=1 
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层次 总 排序 中 权 向 量 计算 公式 : 
W; = Salis Ci = 1,2 5°** 570) (9. 8) 
2) 层次 总 排序 的 一 致 性 检验 
在 层次 总 排序 中 也 要 进 次 层次 总 排序 的 一 致 性 检验 , 即 计 算 组 合 一 致 性 。 从 高 层 到 低 
层 逐 层 进 行 ,如 果 B 层 中 某 些 元 素 对 其 上 层 A 层 中 某 元 素 A; 的 单 排序 一 致 性 指标 为 CL, 
相应 的 平均 随机 一 致 性 指标 为 RL , 则 BB 层次 总 排序 一 致 性 比率 为 : 


ci Sach 
Ch =p, = (9.9) 
B 
Xa; RL 
4 


当 CRy <0. 1 MEAW B FEE RHR EIN A BUE, TF TI OY TE 
值 。 

5. $a BARD 

在 基本 满足 判断 矩阵 一 致 性 检验 的 前 提 下 ,可 以 根据 层次 单 排 序 和 层次 总 排序 结果 对 
决策 问题 进行 定量 分 析 。 
9.1.2 层次 分 析 法 应 用 实例 

外 界 对 运输 企业 交通 运输 质量 的 评价 是 运输 企业 非常 关注 的 大 事 , 对 该 企业 的 生存 与 
发 展 起 到 了 巨大 的 影响 ,运用 层次 分 析 法 找到 运输 质量 评价 体系 中 因素 的 重要 性 排序 。 


1. 构造 评价 交通 运输 质量 的 递 阶 层次 模型 
先 分 析 影 响 交 通 运输 质量 的 各 项 指标 ,在 此 基础 上 建立 评价 交通 运输 质量 的 递 阶层 次 


模型 ,如 图 9. 1 所 示 。 
交通 运输 质量 a 


[ I I I 1 
准确 性 bi 准时 性 ba 安全 性 b, 合理 性 by 经 济 性 bs 环保 性 bg 
ee i a 
正 | | 装 | | 货 | | 运 | | 准 | | 事 | | 事 | | 事 | | 满 | | 车 | | 合 | | 经 | | 适 | | 消 | | 
aal | 物 | lawl | 时 | fae] | 故 | | 故 | al | 容 | | 理 | | 济 | | 当 | El | 十 
运 | | 复 | | 污 | pE] | 到 | | 频 | | 伤 | | 死 | | 率 | | 利 | | 运 | | 的 | | 车 | | 资 | | 污 
输 | | 杂 | | 损 | | 度 | | 达 | | 率 | | 人 | JE} feo] | 用 | | 价 | | 行 | | 型 | | 源 | | 染 
率 | | 性 | | 率 | | ea 率 | |e] | 率 | | 率 率 | |cn| | 车 | les} | 数 
cl C2 C3 C5 C7 Cs Cio 路 C14 
线 ĉis 
C12 


图 9.1 评价 交通 运输 质量 的 递 阶层 次 模型 


2. 构建 判断 矩阵 及 计算 层次 内 单 排序 
计算 第 一 层次 内 单 排序 ,判断 和 矩阵 A 为 : 
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1 3 5 T ee 
1/3 1 3 9 时 i 
1/5 1/3 1 a Or S 
1/7 1/5 1/3 Ll 3 3 
1/9 1/7 1/5 1/73 1 1 
1/9 1/7 1/5 1/3 1 1 


利用 根 法 Aw =A m w AC AY Fl LT ABE A nd A max = 6. 277 和 对 应 的 特征 向 量 
w=(0. 8441, 0.4572, 0.2392, 0.1210, 0.0578, 0. 0578), 进 行规 一 化 处 理 ,w = (0. 4750, 


0. 2573, 0.1346, 0.0681, 0.0325, 0. 0325) 。 进 行 一 致 性 检验 ,CI 于 一 Amex — = 2 一 0. 0554, 查 


表 9.2, 4 n=6 WH ,RI=1. 24, ff LA CR=CI/RI=0. 0447<0. 1 ares 

同 理 , 继 续 计算 下 层 元 素 的 权重 并 进行 一 致 性 检验 。 说 明 : 表 9.4 一 表 9.9 中 前 面 各 列 
为 判断 矩阵 中 指标 两 两 比较 的 值 ,最 后 面 的 两 列 为 利用 根 法 求 得 的 层次 内 权重 向 量 和 归 一 
化 后 的 权重 向 量 值 。 


表 9.4 运输 准确 性 评价 表 9.5 运输 准时 性 评价 


s ~ ~ 3 w / 
bz 5 
n EAB EE 0.161 | 0.686977 


Ca 1 3 0. 9487 0.750 02 


Amex = 3. 0385 ,CI=0.01, CR=0. 017<0. 1 Amx = 2,CR=0 
表 9.6 运输 安全 性 评价 表 9.7 运输 合理 性 评价 
bs w Bi y 
Ce 0.636 977 
Co 10;. 5. 
C7 0.258 309 
Cs 0.104714 C10 1 1 0. 7071 0.5 
Amex = 3. 0385 ,CR=0. 017<0. 1 Amax =2,CR=0 
RIS 运输 经 济 性 评价 表 9.9 运输 环保 性 评价 
bs C14 C15 w w 
Cu | 1 | 5 | 0. 9806 | 0. 833 347 


C15 1/5 1 0.1961 | 0. 166 653 


diag = 35CR=0 Amx =2,CR=0 


3. 进行 层次 之 间 的 综合 排序 
0 4750, wz =0. 2573, w;=0. 1346, w, =0. 0681, 
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w; =0. 0325, w =0. 032D IRK 9. 4 一 表 9. 9 得 到 的 第 二 层次 的 权重 向 量 ,构造 得 到 层次 
总 排序 的 矩阵 ,如 表 9. 10 的 中 间 部 分 所 示 。 利 用 上 面 介 绍 的 总 排序 方法 , 求 得 总 排序 的 权 
重 向 量 ,如 表 9. 10 的 最 后 一 列 所 示 。 


表 9.10 层次 综合 排序 的 权重 


w =0. 4750 | w =0. 2573 | w, = 5 | ws =0. 0325 


总 排序 
pi bo Ps 

Cl 0. 636 977 0 0 0. 302 564 
Ca 0. 104 714 0 0 0. 049 739 
cs 0.258309 | 0 0 0. 122 697 
C4 0 0.750 02 0 0. 192 98 
C5 0 0.249 98 0 0. 064 32 
C6 0 0 0 0. 085 736 


=» |e i — eet le — 8 16 0,084 768 
we se o To 0014 095 
TE o ee ”| 008405 
Cio 0 0 0.5 0 0 0. 034 05 
JE o as | 00195 

1 。 .0065 

cu 0 0 0 0. 833 347 0. 027 084 
SL o | io0oss [0005415 


4. 评价 结果 分 析 

本 例 中 的 评价 体系 最 为 关心 运输 的 准确 性 ,其 次 是 准时 性 ,再 次 是 安全 性 ,合理 性 、 经 济 
性 和 环保 性 。 而 细 分 到 底层 ,总 体 来 说 首先 关注 如 正确 运输 率 、 运 输 速度 等 指标 ,可 以 看 出 
这 个 评价 体系 是 以 保证 运输 质 a ere 也 说 明 只 有 提高 了 运输 
的 准确 性 和 准时 性 的 前 提 , 提 高 客户 满意 度 才 能 获得 经 济 效益 o 


9.2 模糊 层次 分 析 法 


荷兰 学 者 Van Loargoven 提出 ,利用 三 角 模 糊 数 表 示 层 次 分 析 法 中 比较 判断 矩阵 的 方 
法 并 运用 三 角 模 糊 数 的 运算 规则 求 得 元 素 的 重要 性 排序 , 即 在 模糊 环境 下 使 用 层次 分 析 方 
法 , 称 为 模糊 层次 分 析 法 ,该 方法 能 够 使 得 判断 矩阵 的 构造 更 多 地 考虑 到 决策 者 和 评价 者 的 
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9.2.1 模糊 层次 分 析 法 的 步骤 


1. 建立 多 级 递 阶 结构 模型 与 模糊 判断 矩阵 

同一 层次 的 元 素 作 为 准则 对 下 一 层次 的 某 些 元 素 起 支配 作用 ,同时 又 受到 上 一 层次 元 
素 的 支配 。 处 于 最 上 层 的 通常 只 有 一 个 元 素 , 它 是 分 析 问 题 的 预定 目标 或 理想 结果 , 称 为 目 
标 层 。 中 间 的 层次 包括 实现 目标 所 涉及 的 中 间 环 节 , 称 为 准则 层 。 最 低 一 层 为 实现 目标 可 
供 选 择 的 各 种 措施 、 方 案 或 体现 各 准则 要 素 变 化 的 指标 , 称 为 措施 方案 层 或 指标 层 。 确 定 各 
层次 要 素 后 ,用 三 角 模 糊 数 (1;，m;,， wi) 定量 表示 在 给 定 准则 下 ,同一 层次 各 因素 之 间 两 两 
比较 的 结果 。1; u 表示 判断 的 模糊 程度 , 当 /与 相等 时 则 表示 判断 是 非 模 糊 的 。 

2. 三 角 模 糊 数 理论 及 其 运算 

首先 引入 如 下 定理 : 如 果 M=, m, u) s M=; m, u) 代表 两 个 模糊 数 , 则 

(1) MOM, = (lr m, u BU, Mm, uw)=Cy, +l, m Hm, u tuz) 

(2) MOM, =(h + m, u1)OCU2, m, uz) =Cly les m— m, Uy —U2) 

(3) MOM: =(h > m, u) Hs, Mm, uz)=(hlz, mm, uuz) 

(4) M ØM:=(lL, m, ud Ø ll, m, uz)=(lı/uz, m/m, u/ l2) 

(5) VA AM = m, u)= Ah, àm, àu) AER 

(6) M ™!=(h, ms, a) =(C1/u,, 1/m,, 1/1,) 


3. 模糊 层次 分 析 法 的 权重 计算 
三 角 模 糊 数 Mi G, F= 1, 2,…，7m) 表 示 因 素 ; 和 7 通过 两 两 比较 ,在 模糊 判断 矩阵 中 
的 取 值 。 第 i 个 因素 的 综合 模糊 度 S; 为 
s = iM, Olim] (9. 10) 
模糊 数 S; 可 以 用 来 计算 因素 的 排序 。 假设 Si = mı sti ) 92 = Cle sm 92 ) Sı >S 


的 可 能 性 用 VCS: SS, ) 表 示 , 则 
VS 之 9:) 王 1， m >m 


V(S, > S:) = fo "5; eos = ee (9.11) 
0, 其 他 
HA 表示 第 i 个 因素 ,A; 的 模糊 层次 权重 为 : 
w (Ai) = minV(S > S) (一 1.2 关门 (9.12) 
对 w (AD (i 二 1,2,…,n) 归 一 化 后 ,得 到 归 一 化 的 指标 的 模糊 层次 权重 wA; ) 
w(Ai) = WA) Gi = 1,2,°,n) (9.13) 
Dw (Aj) 
j=l 


9.2.2 模糊 层次 分 析 法 应 用 实例 


随 着 信息 技术 和 现代 管理 理论 的 发 展 ,物流 管理 在 企业 和 社会 都 得 到 越 来 越 多 的 重视 。 
合理 地 选择 第 三 方 物流 服务 商 能 够 减少 生产 企业 的 货物 运输 费用 ,降低 运营 成 本 ,提高 企业 
的 核心 竞争 力 。 因 此 第 三 方 物流 服务 商 的 交通 运输 质量 的 好 坏 是 一 项 重要 决策 问题 ,本 节 
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将 采用 如 图 9. 王 评价 交通 运输 质量 的 递 阶层 次 模型 > 利用 模糊 层次 法 对 第 三 方 物流 服务 商 
的 交通 运输 质量 做 出 评价 。 

1. 应 用 模糊 层次 分 析 法 求 得 决策 者 主观 模糊 权重 

根据 图 9. 1 的 评价 结构 ,得 到 决策 者 主观 模糊 判断 矩阵 如 下 所 示 : 


a bi bz bs bs bs bs 
b |(1,1,1) (1/451/3,1/2) (1,5,9) (1/8,1/7,1/5) (1/9,1/8,1/7) (1/751/541/3) 
ba |(2,3,4) (1,1,1) (3,5,7) (4,5,6) (1/8,1/7,1/5) (5,7,8) 
b = |(1/951/551) (1/7,1/5,1/3) (1,151) (1,3,5) (1/6,1/5,1/4) (4,5,6) 
ba |(5,7,8) (1/6,1/531/4) (1/5,1/3,1) (1,1,1) (1/4,1/3,1/2) (1,3,5) 
bs |(7,8,9) (5,7,8) (4,5,6) (2,3,4) (1,1,1) (1523) 
bs | (3,5,7) (1/8,1/7,1/5) (1/6,1/5,1/4) (1/5,1/3,1) (1/3,1/2,1) 《ll 去 


根据 上 述 模糊 判断 矩阵 ,利用 三 角 模 糊 数 和 模糊 权重 的 计算 方法 , 求 得 准则 层 的 模糊 综 
合 程 度 值 S;(i 二 1,2,…,6), 如 表 9.11 所 示 。 
表 9.11 模糊 权重 w 的 计算 过 程 
Li mi ui V(M=M, . Mz ,Mi) w w 


V(S1>5)=1, V(S,>S,) =0. 26, V(S;>S;) 
Si 0. 024 0. 081 0.197 | =0. 80, V(S,; >S,)=0. 64,V(S,; >S;)=0. 06, 0. 06 0.024 
(S,>S;)=0. 97 


V(S.>S,)=1, V(S,>S,)=1, VCS. >S3) = 
S: 0.137 | 0.253 | 0.498 |1, V(S,>S,)=1, V(S:->S:)=0. 84, VCS, >] 0.84 0.332 
Se)=1 

V(Ss>S1)=1, V(S;>Sz2)=0. 43, V(S:3>5;) 
S; 0.058 | 0.115 | 0.240 |}=1, VCS; >S,) =0. 82, V (S; > S5) =0. 23,] 0.23 0.091 
V(S;>S.)=1 

V(Si>S,)=1, VCSy>S2) =0.59, V(S,>5;) 
Sı 0.069 | 0.154 0.278 | =1, V (S: >S) =1, VCS, > Ss) = 0. 38,| 0.38 0.150 
VS >S:)=1 

V(Ss>S$)=1, V(Ss>S)=1, V(Ss 5S:)= 
Ss 0.182 | 0.311 0.548 |1, VCS; > Sy) =1, VCS; >S;)=1, VCS; >] 1.00 0. 395 
SS.)=1 


V(Ss>S,)=1, V.S >S:)=0. 22, V(S6~>5;,) 
Se 0.044 | 0.086 | 0.185 |=0.81,V(S6>S)=0.63, V(S6>5:)=0.02,| 0.02 0.008 
V(Se>56)=1 


同 理 ,可 以 得 到 指标 层 对 目标 层 各 因素 的 模糊 层次 权重 值 ,进而 得 到 层次 之 间 的 综合 排 
序 ,如 表 9. 12 所 示 。 


表 9.12 指标 层 对 目标 层 的 综合 排序 


0.015 |0. 003 |0. 006 |0. 249 |0. 083 |0. 058 |0. 024| 0.01 |0.075|0.075|0.237|0.079|0.079|0.007|0.001 
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2. 结合 专家 打分 的 综合 评价 决策 

m 个 方案 ,个 指标 的 多 目标 决策 问题 的 决策 矩阵 卫 为 : 
Tir Tiz" Tin 
T21 T22 °°° Ton 


D= 


ml Em2 *** Emm 
其 中 ,zw G51, 2em j=l, 2e M RRB i 个 方案 对 第 j 个 指标 的 数值 。 多 指标 决策 
中 由 于 各 个 评价 指标 的 单位 、 量 纲 和 数量 级 不 同 要 进行 标准 化 处 理 。 决 策 矩 阵 中 往往 同时 
含有 效益 型 指标 和 成 本 型 指标 ,标准 化 处 理 公式 分 别 为 : 
对 于 效益 型 指标 : 


Ti 
Tij mak (9.14) 
1<i<m 


对 于 成 本 型 指标 : 
min (zi ) 
ry = a (9.15) 
根据 效益 型 指标 和 成 本 型 指标 的 标准 化 公式 可 算得 标准 化 决策 矩阵 R= (ri ) mxn o 
通过 专家 咨询 ,对 三 个 物流 服务 提供 商 打分 并 进行 统计 分 析 , 从 而 综合 成 某 一 指标 对 每 
个 物流 服务 提供 商 的 评价 值 ,同时 可 以 得 到 决策 矩阵 也, 如 表 9. 13 所 示 。 


表 9.13 物流 服务 提供 商 的 评价 值 


评价 类 型 评价 指标 指标 类 型 是 供 商 一 提供 商 二 提供 商 三 
正确 运载 率 效益 型 90 85 80 
准确 性 装 印 复 杂 性 成 本 型 92 95 90 
货物 污 损 率 成 本 型 85 90 80 
运输 速度 效益 型 75 85 80 
准时 性 
准时 到 达 率 效益 型 80 82 85 
事故 频率 成 本 型 80 95 82 
安全 性 事故 伤 人 率 成 本 型 85 90 75 
事故 死亡 率 成 本 型 90 95 85 
满载 率 效益 型 65 75 70 
合理 性 
车 容 利用 率 效益 型 60 70 65 
合理 运 价 效益 型 70 85 75 
经 济 性 经 济 的 行车 路 线 效益 型 75 80 70 
适当 车 型 效益 型 80 85 75 
消耗 资源 数 成 本 型 80 85 85 
环保 性 
环境 污染 程度 成 本 型 75 80 85 
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根据 公式 (9. 14) 和 (9. 15) ,按照 表 9. 13 中 评价 指标 的 类 型 ,对 决策 矩阵 D( 参 见 
K 9. 13) 进 行 标准 化 处 理 , 得 到 标准 化 决策 矩阵 R: 
1. 0000 0.9783 0.9412 0.8824 0.9412 1.0000 0.8824 0.9444 0.8667 0.8571 0.8235 0.9375 0.9412 1.0000 1.0000 
0. 9444 0.9474 0.8889 1.0000 0.9647 0.8421 0.8333 0.8947 1.0000 1.0000 1.0000 1.0000 1.0000 0.9412 0.9375 
0. 8889 1.0000 1.0000 0.9412 1.0000 0.9756 1.0000 1.0000 0, 9333 0.9286 0.8824 0.8750 0. 8824 0.9412 0. 8824 
AR He bn HE 1k De ER 与 表 9. 11 中 得 到 模糊 层次 权重 ,利用 模糊 综合 评判 方法 ,得 到 关 
于 第 三 方 物流 服务 商 的 运输 质量 评价 排序 。 
RX WT = (0. 890 912 7,0. 981 725 6,0. 925 353 8)7 
可 见 本 算 例 中 第 三 方 物流 服务 商 的 优选 排序 为 : 提供 商 二 一 提供 商 三 一 提供 商 一 。 该 
方法 由 于 将 模糊 层次 分 析 法 与 标准 化 决策 矩阵 相 结合 ,所 考虑 因素 更 为 全 面 ,可 以 更 好 地 将 
专家 知识 集成 到 决策 过 程 中 。 有 效 地 保留 专家 和 决策 者 的 意见 ,兼顾 主观 客观 两 个 方面 ,使 
得 优选 和 评价 方案 更 加 灵活 并 切合 实际 。 


9.3 模糊 综合 评判 方法 


模糊 综合 判断 法 (Fuzzy Comprehensive Evaluation) 利 用 集合 理论 和 模糊 数学 理论 将 
模糊 信息 数值 化 以 进行 定量 评价 的 方法 ,是 一 种 模糊 综合 决策 的 数学 工具 ,在 难以 用 精确 数 
学 方法 描述 的 复杂 系统 问题 方面 有 其 独特 的 优越 性 。 其 模型 有 单 层 次 的 和 多 层次 的 , 单 层 
次 模型 主要 用 于 规模 比较 小 的 系统 ,对 于 一 个 复杂 的 大 系统 来 讲 , 需 要 考虑 的 因素 往往 非常 
多 ,而 且 因素 之 间 还 存在 着 不 同 的 层次 ,这 就 产生 了 多 层次 模型 。 


9.3.1 模糊 综合 评判 法 的 原理 与 步骤 


1. 模糊 综合 评判 法 的 基本 原理 

模糊 综合 评判 法 的 基本 原理 : 首先 确定 被 评判 对 象 的 因素 (指标 ) 集 U 和 评价 集 V; 再 
分 别 确定 各 个 因素 的 权重 及 它们 的 隶属 度 向 量 ,获得 模糊 评判 矩阵 ;最 后 把 模糊 评判 矩阵 与 
因素 的 权重 集 进行 模糊 运算 并 进行 归 一 化 ,得 到 模糊 评价 综合 结果 。 

数学 表达 为 : BU = (Us Ur Un) H m 种 因素 (或 指标 ),V 二 {Vi, Verte Vp} A 
p 种 评判 。 指 标 个 数 和 名 称 均 需 根据 实际 问题 由 主观 规定 。 由 于 各 种 因素 所 处 的 地 位 不 
同 , 作 用 也 不 一 样 , 当 然 权重 也 不 同 , 因 而 评判 也 不 同 。 人 们 对 p 种 评判 并 不 是 绝对 肯定 或 
否定 ,因此 综合 评判 应 该 是 V 上 的 一 个 模糊 子 集 B 三 (61 5 bab) EJOV) Hh b G= 1, 
2,…,p) 反 映 了 第 j 种 评判 V; 在 综合 评判 中 所 占 的 地 位 , 即 V; 对 模糊 集 B 的 隶属 度 。 
BCOV;) =b; 的 综合 评判 B 依赖 于 各 个 因素 的 权重 , 它 应 该 是 U 上 的 模糊 子 集 A 二 Ca, 


azs san) EJU), H` a: 二 1, 其 中 a; 表示 第 i 种 因素 的 权重 ,因此 一 旦 给 定 权 重 A, 相 


应 可 得 到 一 个 综合 评判 B。 于 是 ,需要 建立 一 个 从 U 到 V 的 模糊 变换 ,如 果 对 每 个 因素 U: 
单独 作 一 个 评判 三 (Ui), 可 以 看 做 是 U 到 V 的 模糊 映射 4, 即 f:U 一 J(V) UU; | > fi) © 
J(V) 由 可 导出 一 个 U 到 VV 的 模糊 线性 变换 ,可 以 把 这 个 模糊 线性 变换 看 作 由 权重 A 得 
到 的 综合 评判 B 的 数学 模型 。 
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2. 模糊 综合 评判 基本 步骤 

在 复杂 系统 中 不 仅 需要 考虑 的 目标 多 ,而 且 一 个 目标 还 往往 由 多 个 因素 组 成 ,也 即 一 个 
目标 往往 又 是 由 若干 其 他 因素 决定 的 ,需要 根据 具体 问题 的 性 质 和 需要 来 确定 层次 划分 。 
不 同性 质 的 问题 ,有 不 同 的 因素 层次 ;同一 性 质 的 问题 ,一 般 说 来 ,层次 划分 越 多 ,评判 会 越 
准确 ,但 工作 量 也 会 越 大 ,并 不 是 层次 分 得 越 多 越 好 。 这 时 应 采取 多 级 模糊 综合 评判 。 

多 级 模糊 综合 评判 的 基本 思想 是 : 先 按 最 低层 次 的 各 个 因素 进行 综合 评判 ,然后 再 按 
上 一 层次 的 各 目标 进行 综合 评判 。 这 样 逐 层 依次 往 上 评价 ,直到 最 高 层 得 出 总 的 评判 结果 。 
本 文 说 明 二 级 模糊 综合 评判 ,其 他 多 级 评判 方法 相似 。 二 级 模糊 综合 评判 的 具体 评判 步骤 
如 下 : 

1) 确定 目标 层次 和 因素 集 

设 目标 集 为 U={U,, U2. Un) ,Ui(i 二 1,，2,…,m) 为 第 一 层次 (也 即 最 高 层次 ) 中 的 
第 i 个 目标 , 它 又 由 第 二 层次 中 的 个 因素 决定 , 即 U; = {Uas Uns Un}. 

2) 建立 权重 集 

目标 权重 集 为 A= (aa ，as ，… sam) ,因素 权重 集 为 A; = (aa ，az，…aan)( 一 1，2，…),7) 。 
在 模糊 综合 评判 中 ,权重 的 确定 是 至 关 重 要 的 , 它 反映 了 各 个 因素 在 综合 决策 过 程 中 所 占 的 
地 位 和 作用 , 它 直 接 影 响 到 综合 评判 的 结果 。 一 般 采 用 以 下 几 种 权 值 确定 方法 : 层次 分 析 
法 、. 灰 关联 度 法 和 Delphi 法 等 。 

3) 建立 评价 集 

因为 评价 集 为 总 评判 的 各 种 可 能 结果 为 元 素 所 组 成 的 集合 , 故 不 论 目标 因素 分 为 多 少 
类 ,评价 集 都 具有 一 个 , 若 总 评判 的 可 能 结果 共有 之 个 , 则 评价 集 可 一 般 表 示 为 了 ={V， 
Vast Vp) ,其 中 VCk 二 1,，2,…,p) 为 第 个 可 能 的 评判 结果 。 在 不 同 的 模糊 综合 评判 问 
题 中 ,判定 评价 集 可 为 V=={Vi, V2, Vs = ER. 可 行 , 不 可 行 };V= 二 {Vi, Vz, Vas Vi = 
(ER. 较 高 , 一 般 , 低 };V={Vi, Vas Va, Va, Vi} = (F, 一 般 , 中 , 较 差 , 差 ) 等 不 同 的 
评价 集合 。 

4) 进行 单 目 标 评 判 , 建 立 模 糊 评 价 矩 阵 

单独 对 某 一 层次 的 某 一 个 目标 进行 评判 ,以 确定 评判 对 象 对 判定 评价 集 元 素 的 隶属 程 
度 , 称 为 单 因素 评判 。 通 过 单 因 素 评 判 可 以 确定 每 个 因素 对 于 各 评价 等 级 的 隶属 度 。 无 论 
用 什么 方法 进行 单 目 标 评判 ,都 是 要 给 出 从 U 到 VV 的 一 个 模糊 映射 f: US I CV), > 
(VDS=R;= (ra, ra rip) CV) G=1, 2,…,m), 因 此 模糊 和 矩阵 R: 


ml riz ae Fa 
721 722 ann DS 


R= (Ri,R:,…,R,)' = 


ra Tm Pimp mxp 

R 称 为 单 目标 评判 矩阵 ,其 中 rJ U 中 的 因素 U; 对 应 V 中 等 级 V; 的 隶属 关系 ,是 第 i 

个 因素 对 该 事物 的 单 目标 评判 ,构成 了 模糊 综合 评判 的 基础 。 单 目标 评判 矩阵 的 规模 由 评 

MEV 中 元 素 个 数 和 影响 目标 的 因素 个 数 决定 ,其 中 ,评价 集 V 中 元 素 个 数 决定 单 目标 评 

判 矩 阵 的 列 数 , 行 的 个 数 由 影响 目标 的 因素 个 数 来 决定 ,其 每 一 行为 相应 的 影响 目标 的 因素 
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对 于 评定 等 级 的 隶属 程度 。 


5) 选择 合成 算 子 ,进行 模糊 综合 评判 


将 权重 集 A 和 模糊 评价 矩阵 R 合成 得 到 综合 评判 结果 BL U> JV), A> f(A) = 
4。R=BEJCV)。 符 号 "。” 表 示 广 义 的 合成 算 子 , 即 BA R= Ch, brs sb) IXE H WR 
糊 综合 评判 。 可 将 评判 矩阵 R 看 作 一 个 模糊 变换 器 ,每 输入 一 组 权重 A 就 可 以 得 到 相应 的 


综合 评判 向 量 B。 
(1) 一 级 模糊 综合 评判 。 


设 对 第 i 类 目标 的 第 j 个 因素 UU; 评判 ,评判 对 象 隶 属于 评价 集中 第 个 元 素 的 隶属 度 
FY rns S1, 2sm; j51, Zor ,nn; 上 二 1 ,2,… 7) 则 一 级 模糊 评判 的 单 因 素 评判 矩阵 为 


R=| ”|, 于 是 ,第 i 类 目标 的 模糊 综合 评判 集 B, N: 


Fimi Tim2 cee Timp 


B; = A ° R; = (aa a2 9° sa; 


b= Y Cro) W &w=V |G Arad G=1,2,~ 
j=l j=l 


(2) 二 级 模糊 综合 评判 。 


二 级 模糊 综合 评判 集 BOW: 
A; ° 


= (bi 02 5° 5b,) 


be = >) ba) 或 b= VV Cai N ba) (k = 1,25", p) 
= i 


6) 对 模糊 综合 评判 结果 进行 分 析 处 理 
通过 该 步 又 使 判定 结果 的 信息 清晰 化 ,最 终 对 被 评判 对 象 做 出 判定 。 


模糊 综合 评判 法 的 优点 : 


= (41 yaz，…am)。 


= (ba best sb) (9.16) 


Mk = 1,2,°%…,p) (9.17) 


biz 


baz 


Ome 


bip 

bop 

bp 
(9.18) 
(9.19) 


(1) 隶属 函数 和 模糊 统计 方法 为 定性 指标 定量 化 提供 了 有 效 的 方法 ,实现 了 定性 和 定 


量 方法 的 有 效 集合 。 


(2) 在 客观 事物 中 ,一 些 问题 往往 不 是 绝对 的 肯定 或 绝对 的 否定 ,涉及 模糊 因素 ,而 模 


糊 综 合 评判 方法 能 很 好 地 解决 判断 的 模糊 性 和 不 确定 性 问题 。 


(3) 所 得 结果 为 一 向 量 , 即 评语 集 在 其 论 域 上 的 子 集 ,克服 了 传统 数学 方法 结果 单一 性 


的 缺陷 ,结果 包含 的 信息 量 丰 富 。 


模糊 综合 评判 法 的 缺点 : 


(1) 不 能 解决 评价 指标 间 相 关 造 成 的 评价 信息 重复 问题 。 
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(2) 各 因素 权重 的 确定 带 有 一 定 的 主观 性 。 

(3) 在 某 些 情况 下 ,隶属 函数 的 确定 有 一 定 困难 。 
9.3.2 模糊 综合 评判 法 应 用 实例 

通过 模糊 综合 评判 方法 对 供应 商 能 力 进行 综合 评价 分 析 。 

1. 构建 供应 商 能 力 评 价 的 模糊 综合 评判 模型 

建立 关于 供应 商 能 力 的 综合 指标 体系 (参见 表 9. 14) ,评价 因素 集 U 二 {Ui, Une, 
Us ) 二 {产品 质量 能 力 , 生 产 管理 能 力 ,企业 竞争 能 力 ,市 场 应 变 能 力 , 信 息 化 能 力 } 。 二 级 评 
价 指标 U, = {un s Uiz» tis} ,Da = {Uz Uzzs Uz» Uz } ,Us = {Us , Usz» Uggs Usa Ug5} ,LU = 
{ua > Uazo Uag} U5 = {us use}. 确定 评语 集 V=(V，V，V， Vi} ob il Be ay PE On R AY IE 
力 水 平 为 { 高 , 较 高 ,一 般 , 低 } 的 四 个 级 别 。 

表 9.14 供应 商 能 力 的 综合 指标 体系 


产品 质量 能 力 (U1) 产品 合格 率 ul ;产品 返修 率 ws ;产品 退货 率 us 

生产 管理 能 力 (U;) 价格 水 平 ua ;准时 交 货 率 uz ;市 场 占有 率 wzs ;流程 优化 度 uz 

企业 竞争 能 力 (Us) ARRIR ual ;财务 能 力 uaz ;企业 文化 uss ;服务 水 平 us4 ;企业 成 熟 度 uss 
市 场 柔 性 能 力 (U,) 产品 多 样 性 wu ;产品 开发 能 力 wsz ;科研 能 力 ws 

信息 化 能 力 (Us ) 信息 开放 度 usi ;信息 集成 度 vs 


2. 供应 商 能 力 的 模糊 综合 评判 模型 计算 过 程 

D 对 子 因素 集 U;(i 二 1, 2,3, 4,5) 分 别 进行 一 级 模糊 综合 评判 

首先 ,构建 单 因素 评价 和 矩阵。 采用 专家 评议 法 建立 一 个 由 ! 人 组 成 的 评判 组 ,每 位 组 员 
给 每 一 个 Ui GSL, 2500 m RP PPE E VP 4 个 等 级 中 的 一 个 且 仅 一 个 等 级 , 若 /位 组 员 
中 评定 U; 为 等 级 WwW 的 有 必 个 人 ,假定 每 位 成 员 意见 都 被 同等 对 待 , 则 对 U; 的 评判 结果 为 
了 (V) 中 的 一 个 模糊 子 集 R; 为 算术 平均 得 到 数据 。 


R; (4.4,4,4)— (Vi sU 5 Vig s Ua) (9. 20) 
对 于 UL.A R= 对 于 U: ,有 R = 
0.55 0.35 O10 © 0.35 0.40 0.20 0.05 
0.30 0.25 0:35- 0. 10 0.40 0.30 0.20 0.10 
0.20 0.30 0.30 0.20 0.45 0.40 0.05 0.10 
0.55 0.40 0.05 0 
对 于 Us ,有 R = 对 于 U ,有 R= 
0.35 0.50 0.10 0.05 0.55 0.25 0.10 0,10 
0,45 0.30 0,15 0:10 0.20 0.30 0.30 0.20 
0,55. 0.30- 0,15 60 0.05 0.20 0.35 0.40 
0.20 0.25 0.45: 0.10 
0.20 0.25 0.35 0.20 


。 194 « 


对 于 U; ,有 R; = 
0.45 0.25 0.20 0.10 
0:55 0735 -0:10 0 


其 次 ,根据 专家 给 出 的 子 因素 集中 各 因素 的 权重 数据 A = (0.50, 0. 40, 0.1) 5A = 
(0.30, 0.30, 0. 20, 0. 20);A; =(0. 15, 0. 20, 0. 20, 0. 30, 0. 15);A,=(0. 40, 0. 40, 


0. 20);As=(0.60, 0.40). 


采用 Zadeh 算 子 bx = Vv (ay A rip) OR h U: 到 人 的 模糊 变换 B;=A;°R;,i=1,2,3, 
j=l 


4,5, 
=A, 。 
=A, ° 
= A; 
= A, ° 
bs = As ° Rs 
2) 进行 二 级 综合 评判 计算 
VA U: ,Us ,Us,U ,Us 为 元 素 , 用 bi 
50 
30 
20 
40 
0. 45 


bı 
b 


bs 


ba 


oS PS 


(0. 


(0. 45, 


she ,03 ， 


0. 35 
0. 30 
0.25 
0. 30 
0.35 


» 0.35, 
» 0. 30, 
» 0.25, 
» 0. 30, 
0.35, 


0.10); 
0.10); 
0.15); 
0.20); 
0.10), 


0.35, 
0. 20, 
0. 30, 
0. 30, 
0. 20, 


by obs FETE Pt HE RE R 


0. 35 
0. 20 
0. 30 
0. 30 
0. 20 


0. 10 
0. 10 
0.15 
0. 20 
0. 10 


根据 专家 给 出 的 目标 因素 的 权重 数据 A= (0. 40, 0. 20, 0.10, 0.10, 0.20), 


采用 Zadeh H.-F by = V Cas 人 ba ) 计 算 二 级 模糊 综合 评价 B=A*R=(0. 40，0. 35， 
0.35,，0.10) 经 归 一 化 处 理 得 B= (0. 33, 0.29, 0.29, 0.09), 

根据 最 大 素 属 原则 ,通过 一 级 模糊 综合 评判 结果 ,表明 企业 的 质量 控制 能 力 、 生 产 组 织 
能 力 .市场 应 变 能 力 和 信息 控制 能 力 较 同行 业 其 他 企业 强 , 但 该 企业 的 管理 能 力 综合 评价 仅 
为 “一 般 ”, 这 说 明 企业 在 管理 制度 中 仍 存在 缺陷 。 二 级 模糊 综合 评判 结果 表明 该 供应 商 的 
能 力 属于 “高 的 等 级 。 


9.4 模糊 聚 类 分 析 方 法 


9.4.1 模糊 聚 类 方法 介绍 


在 实际 应 用 中 ,许多 对 象 之 间 并 无 清晰 的 划分 ,边界 具有 模糊 性 ,之 间 的 关系 更 多 的 是 
模糊 关系 。 对 于 这 类 对 象 使 用 模糊 数学 方法 进行 聚 类 分 析 , 称 为 模糊 聚 类 分 析 。 
定义 ”模糊 等 价 和 矩阵 .模糊 相似 矩阵 
BU Hie. MIR Ra, y): UXV 一 [0,1j] 确 定 UXV 上 的 一 个 模糊 子 集 R 为 
U 到 VV 的 一 个 模糊 关系 。 素 属 函数 R(x,，y) 表 示 (zx，y) 关 于 模糊 关系 R 的 相关 程度 。 若 
R 满足 自 反 性 G(x; 二 1) RPE Gy = ri) ,传递 性 (max{ (re Ary) |OK RK nn} Sr), WR 为 模 
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糊 等 价 和 矩阵 。 若 RR 仅 满足 自 反 性 和 对 称 性 则 R 为 模糊 相似 矩阵 。 
定义 ”模糊 合成 关系 即 闭 包 运算 
R= (rg) nxn kin 阶 模糊 方 阵 ,R 与 R 的 模糊 合成 关系 为 : 


V Cie A re) V Cre A re) oo V Cie A ra) 
k=1 k=1 k=1 


V Cro A ra) V Cro AN rad es Vv (re N rm) (9. 21) 


V Cra AN rin) V (ra A reed V Cr N Tae) 
Lk=1 k=1 k=1 I 


同 理 ,依次 计算 RY = Ro R=RORo RI n 次 模糊 合成 。 

EE MERE n 阶 模糊 相似 矩阵 , 则 存在 一 个 最 小 的 自然 数 有 (kn) ,使 得 RY 为 模 
糊 等 价 矩 阵 , 且 对 一 切 大 于 的 自然 数 工 , 恒 有 R= RE, 

在 聚 类 分 析 中 ,通常 不 是 直接 采用 距离 进行 度量 ,而 是 采用 相似 性 的 度量 方法 。 相 似 性 
度量 公式 如 下 所 示 : 

d(x; 5x;) 
r(2zj52;) = | — -max dlana) C9, 22) 

ARO. 22) 表 示 待 聚 类 对 象 zx; Mx; 的 相关 度 ， 
代表 它们 之 间 的 相似 程度 。d (xi ,xj) 表 示 聚 类 对 象 
x; Ax; 之 间 的 距离 (计算 方法 参见 第 6 章 “ 聚 类 分 析 针对 样本 表 ， 选 定 待 决策 对 象 
方法 与 应 用 ”的 多 种 距离 公式 )，max d Ce, e) RAR i 
Ay EY HHP ACHE BS. MAT AANA 
Wt HZ E AE HE AMER ABS EA AL PEE RE XL a 
TY tL ROA EH A (WBE. HE SE Ds REP SEER 设 定 阔 值 ， 根 据 闪 值 进行 动态 聚 类 
糊 相 似 和 矩阵 R 的 模糊 等 价 矩 阵 时 ,经常 采用 闭 包 运算 。 


开始 


对 于 待 聚 类 对 象 ， 建 立 模糊 相似 矩阵 R 
į 


获取 模糊 等 价 关 系 以 后 , 设 定 阔 值 a 进行 聚 类 。 基 于 结束 
模糊 等 价 矩 阵 的 聚 类 算法 步骤 如 图 9. 2 所 示 。 OA 


9.4.2 ”模糊 聚 类 算法 应 用 算法 流程 图 


按照 基于 模糊 等 价 和 矩阵 的 聚 类 算法 步骤 (参见 图 9. 2) ,选取 表 9. 15 的 数据 ,A 和 A, 
为 样本 属性 ,pi ~p 为 待 聚 类 对 象 。 


表 9.15 决策 表 
Ps 
A 10 
A 7 


由 于 A, 和 A, 两 个 属性 的 量 纲 相差 不 大 ,可 以 直接 计算 多 维 空 间 中 任意 两 点 之 间 的 欧 
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氏 距 离 ( 参 见 第 6 章 相关 介绍 ) ,得 到 距离 矩阵 以 后 ,寻找 距离 矩阵 中 元 素 的 最 大 值 inex 。 然 
后 再 根据 公式 9. 22 计算 相关 性 请 ,得 到 相关 性 和 矩阵 尽 , 同 时 R 为 模糊 相似 矩阵 。 
模糊 相似 矩阵 R= 


1 0.72 0.82 0.82 0.68 0.17 0.19 0.06 0 
0.72 1 0.72 0.9 0.81 0.35 0.41 0.28 0.15 
0.82 0.72 1 0.75 0.81 0.31 0-31 0,19 0.19 
0.82 0.9 0:75 1 0.73 0.23 0.28 0.17 0.13 
0.68 0.81 0.81 0.73 1 0.43 0.5 0.37 0.36 
0.17 0.35 0.31 0.23 0.43 1 0.9 0.82 0.9 
0.19 0.41 0.31 0.28 0.5 0.9 1 0.9 0.82 
0.06 0.28 0.19 0.17 0.37 0.82 0.9 1 0.9 
0 0.15 0.19 0.13 0.36 0.9 0.82 0.9 1 
XY AE ADE RE R 进行 二 次 闭 包 运算 ,得 到 二 次 闭 包 运算 结果 矩阵。 
二 次 闭 包 运算 结果 矩阵 R = 

0.82 0.82 0.82 0.81 0.43 0.5 0.37 0.36 
0.82 1 0.81 0.9 0.81 0.43 0.5 0.41 0.41 
0.82 0.81 1 0.82 0.81 0.43 0.5 0.37 0.36 
0.82 0.9 0.82 1 0.81 0.43 0.5 0.37 0.36 
0.81 0.81 0.81 0.81 1 0.5 0.5 0.5 0.5 
0.43 0.43 0.43 0.43 0.43 1 0S O09 -09 
0D OD "Oud "Om ,0D 029 1 0.9 0.9 
0.37 0.41 0.37 0.37 0.5 0.9 0.9 1 0.9 
0.36 0.41 0.36 0.36 0.5 0.9 09 0.9 1 


HEITIR PU Uc PA ah ies SPF BY 2 AR A AR A] T DA SP E RE o 
SKA Lie TEAR BIS SE PT EF TS o 
=A ies FEAR BO SEEE R? 


1 0.82 0.82 0.82 0.81 0.5 0.5 0.5 0.5 
0.82 1 0.82 0.9 0.81 0.5 0.5 0.5 0.5 
0.82 0.82 1 0.82 0.81 0.5 0.5 0.5 0.5 
0.82 0.9 0.82 1 0.81 0.5 0.5 0.5 0.5 
0.81 0.81 0.82 0.81 1 0.5 0.5 0.5 0.5 
0:9: (O29. Os “Oso fas 1 0.9 0.9 0.9 
0.5 05 0.5 O05 O58 0.9 1 0.9 0.9 
05- 0.5 O39 0; 05 09 09 1 0.9 
Qs Oa 0:5. O05 0:5 9 O99 O19 l 


针对 模糊 等 价 矩阵 GF BE a SK. RAS AY RU oP th EE. HAE ERP IPA TG 
要 取 尽 L0,1] 之 间 所 有 的 值 , 只 需要 根据 具体 情况 ,恰当 地 选择 a 就 可 以 得 到 满意 的 结果 : 
d) 当 0<aX0.5 时 ,所 有 对 象 属于 一 类 ; 
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bs}; 


(2) 当 0. 5<a<0. 81 IY .4¢ IE. — FEA pis bzo bso Par Ph ARH Pes Prs 
bs» pods 
(3) 4 0. 81<a<0. 82 时 ,分 为 三 类 ,分 别 为 {pi, bz» pas Psd s{Pshs{ Pos Prs Pss Pots 
(4) 当 0. 82<a <0. 9 DHEK, DINA { pi}. pzs pats ips?» ips} t Pss Pro Pss 


(5) 当 0. 9<a<1 时 ,分 为 九 类 ,每 个 对 象 各 归 一 类 。 
如 果 选 取 a=0. 8, 用 图 9. 3 直观 显示 聚 类 的 结果 ;如 果 选 取 a= 0. 82, 对 应 的 聚 类 结果 
如 图 9. 4 所 示 ;a 取 其 他 值 时 的 结果 图 可 以 类 似 地 获得 。 
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图 9.4 a=0.82 聚 类 结果 图 
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本 章 介 绍 了 基于 模糊 理论 的 数据 挖掘 技术 与 方法 ,研究 了 模糊 层次 分 析 方 法 ,建立 了 第 
三 方 物流 服务 商 的 交通 运输 质量 综合 评价 多 级 递 阶 结构 模型 ,研究 模糊 综合 评判 方法 并 给 
出 了 应 用 实例 ,阐述 了 模糊 聚 类 分 析 方 法 和 基于 模糊 等 价 和 矩阵 的 聚 类 算法 实例 。 
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思 


. 层次 分 析 法 理论 的 计算 步骤 。 
.应 用 模糊 层次 分 析 方 法 。 
. 模糊 综合 评判 法 的 计算 步 又。 
.应 用 模糊 聚 类 分 析 方 法 。 
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本 章 介 绍 灰色 系统 的 基础 理论 ,包括 灰色 系统 理论 产生 的 背景 ,特点 和 灰色 系统 建 模 过 
程 与 适用 范围 ;给 出 了 基于 灰色 系统 理论 的 三 个 主要 的 数据 挖掘 方法 和 具体 应 用 算 例 ,包括 
灰色 预测 模型 ,灰色 聚 类 分 析 方 法 和 灰色 综合 评价 方法 。 


10.1 灰色 系统 的 基础 理论 


10.1.1 灰色 系统 理论 介绍 


灰色 系统 理论 (Grey System Theory) 的 创立 源 于 20 世纪 80 年 代 。 邓 聚 龙 教授 在 1981 年 
上 海中 美 控制 系统 学 术 会 议 上 所 作 的 “ 含 未 知 数 系统 的 控制 问题 "的 学 术 报 告 中 首次 使 用 了 
“灰色 系统 ”一 词 。1982 年 , 邓 聚 龙 发 表 了 ”参数 不 完全 系统 的 最 小 信息 正定 "“ 灰 色 系 统 的 
控制 问题 "等 系列 论文 ,商定 了 灰色 系统 理论 的 基础 。 他 的 论文 在 国际 上 引起 了 高 度 的 重 
视 ,美国 哈佛 大 学 教授 《系统 与 控制 通信 ) 杂 志 主 编 布 罗 克 特 (Brockett) 给 予 灰 色 系统 理论 
高 度 评价 ,因而 ,众多 的 中 青年 学 者 加 入 到 灰色 系统 理论 的 研究 行列 ,积极 探索 灰色 系统 理 

事实 上 ,灰色 系统 的 概念 是 由 英国 科学 家 艾 什 比 (W. R. Ashby) 所 提出 的 “黑箱 ”Black 
Box) 概 念 发 展演 进而 来 ,是 自动 控制 和 运筹 学 相 结合 的 产物 。 艾 什 比 利 用 黑箱 来 描述 那些 
内 部 结构 特性、 参数 全 部 未 知 而 只 能 从 对 象 外 部 和 对 象 运动 的 因果 关系 及 输出 输入 关系 来 
研究 的 一 类 事物 。 邓 上 聚 龙 则 主张 从 事物 内 部 ,从 系统 内 部 结构 及 参数 去 研究 系统 ,以 消除 
“黑箱 ”理论 从 外 部 研究 事物 而 使 已 知 信 息 不 能 充分 发 挥 作用 的 次 端 ,因而 ,被 认为 是 比 “ 黑 
箱 ” 理 论 更 为 准确 的 系统 研究 方法 。 所 谓 灰 色 系统 是 指 部 分 信息 已 知 而 部 分 信息 未 知 的 系 
统 , 灰 色 系 统 理论 所 要 考察 和 研究 的 是 信息 不 完备 的 系统 ,通过 已 知 信息 来 研究 和 预测 未 知 
领域 从 而 达到 了 解 整个 系统 的 目的 。 

灰色 系统 是 通过 对 原始 数据 的 收集 与 整理 来 寻求 其 发 展 变化 的 规律 。 这 是 因为 ,客观 
系统 所 表现 出 来 的 现象 尽管 纷繁 复杂 ,但 其 发 展 变化 有 着 自己 的 客观 逻辑 规律 ,是 系统 整体 
各 功能 间 的 协调 统一 。 因 此 ,如 何 通过 散乱 的 数据 系列 去 寻找 其 内 在 的 发 展 规律 就 显得 特 
别 重 要 。 灰 色 系 统 理论 认为 ,一 切 灰 色 序 列 都 能 通过 某 种 生成 弱化 其 随机 性 的 模型 而 呈现 
本 来 的 规律 ,也 就 是 通过 灰色 数据 序列 建立 系统 反应 模型 ,并 通过 该 模型 预测 系统 的 可 能 变 
化 状态 。 灰 色 系 统 理论 认为 微分 方程 能 较 准 确 地 反映 事件 的 客观 规律 , 即 对 于 时 间 为 1 的 
状态 变量 ,通过 方程 就 能 够 基本 反映 事件 的 变化 规律 。 

目前 ,灰色 系统 理论 得 到 了 极为 广泛 的 应 用 ,不 仅 成 功 地 应 用 于 工程 控制 、 经 济 管理 、 社 
会 系统 .生态 系统 等 领域 ,而 且 在 复杂 多 变 的 农业 系统 ,如 在 水 利 .气象 .生物 防治 等 方面 也 
取得 了 可 喜 的 成 就 。 灰 色 系 统 理论 在 管理 学 ,决策 学 .战略 学 .预测 学 .未 来 学 .生命 科学 等 
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领域 有 极为 广泛 的 应 用 前 景 。 
10.1.2 灰色 系统 的 特点 


概率 统计 、 模 糊 数学 和 灰色 系统 理论 是 三 种 最 常用 的 不 确定 性 系统 的 研究 方法 ,如 表 
10. 1 所 示 ,研究 对 象 都 具有 不 确定 性 ,这 是 三 者 的 共同 点 , 正 是 研究 对 象 在 不 确定 性 上 的 区 
别 派生 出 三 种 各 具 特 色 的 不 确定 性 学 科 。 


表 10.1 灰色 系统 与 概率 、 模 糊 的 对 比 


概率 与 数理 统计 样本 量 大 ,数据 多 但 缺乏 明显 规律 的 问题 , 即 “ 大 样本 不 确定 性 ?问题 
模糊 数学 人 的 经 验 及 认 知 先 验 信息 的 不 确定 问题 , 即 “ 认 知 的 不 确定 性 ”问题 
灰色 系统 既 无 经 验 , 数 据 又 少 的 不 确定 性 问题 , 即 “少数 据 不 确定 性 ”问题 


模糊 数学 着 重 研究 “ 认 知 不 确定 ”问题 ,其 研究 对 象 具有 “内 涵 明 确 , 外 延 不 明确 ”的 特 
点 。 比 如 “中 年 人 ”就 是 一 个 模糊 概念 ,因为 每 一 个 人 都 十 分 清楚 中 年 人 的 内 涵 , 但 想 划 定 
一 个 确定 的 范围 则 很 难 办 到 ,因为 中 年 人 这 个 概念 外 延 不 明确 。 对 这 类 内 涵 明 确 外 延 不 明 
确 的 “ 认 知 不 明确 ”问题 ,模糊 数学 主要 是 凭 经 验 借助 于 隶属 函数 进行 处 理 。 

概率 统计 研究 的 是 “随机 不 确定 ”现象 ,着 重 于 考察 “随机 不 确定 ”现象 的 历史 统计 规律 ， 
考察 具有 多 种 可 能 发 生 的 结果 之 “随机 不 确定 ”现象 中 每 一 种 结果 发 生 的 可 能 性 大 小 。 其 出 
发 点 是 大 样本 ,并 要 求 对 象 服从 某 种 典型 分 布 。 

灰色 系统 着 重 研究 概率 统计 、 模 糊 数学 所 不 能 解决 的 “小 样本 、 贫 信息 不 确定 ”问题 ,并 
依据 信息 覆盖 ,通过 序列 生成 寻求 现实 规律 。 其 特点 是 “少数 据 建 模 ”。 与 模糊 数学 不 同 的 
是 ,灰色 系统 理论 着 重 研究 “外 延明 确 , 内 涵 不 明确 ”的 对 象 。 比 如 : 到 2050 年 ,中 国 要 将 总 
人 口 控制 在 15 亿 到 16 亿 之 间 , 这 “15 亿 到 16 亿 之 间 ” 就 是 一 个 灰 概念 ,其 外 延 是 非常 明确 
的 ,但 如 果 进 一 步 要 问 到 底 是 哪个 具体 值 , 则 不 清楚 。 灰 色 系 统 理论 与 概率 论 、 模 糊 数学 一 
起 并 称 为 研究 不 确定 性 系统 的 三 种 常用 方法 ,具有 能 够 利用 * 少 数据 ? 建 模 寻求 现实 规律 的 
良好 特性 ,克服 了 数据 不 足 或 系统 周期 短 的 矛盾 。 


10.1.3 灰色 系统 建 模 与 适用 范围 


1. 灰色 系统 GM(n, hee 

灰色 建 模 是 进行 灰色 预测 与 灰色 决策 的 基础 ,其 建 模 过 程 可 分 为 五 步 : 语言 模型 、 网 络 
模型 .量化 模型 .动态 模型 .优化 模型 。 五 步 建 模 过 程 事实 上 是 信息 不 断 补充 ,系统 因素 及 其 
关系 不 断 明 确 ,明确 的 关系 进一步 量化 ,量化 后 关系 进行 判断 改造 的 过 程 ,是 系统 由 灰 变 白 
的 过 程 。 

灰色 模型 和 其 他 任何 模型 一 样 , 不 可 能 具有 普遍 适用 性 ,而 是 有 其 特定 的 建 模 条 件 。 灰 
色 模 型 的 特点 在 于 其 建 模 机 理 与 其 他 模型 不 同 ,在 建 模 的 数据 处 理 上 ,通过 灰色 序列 生成 找 
寻 数 据 演变 的 规律 性 。 在 进行 灰色 系统 建 模 前 需要 判断 序列 是 否 是 光滑 序列 ,数据 序列 是 
否 满足 灰 指 数 规律 。 灰 色 系 统 的 模型 GM, hh) 是 以 灰色 模块 概念 为 基础 ,以 微分 拟 合法 
为 核心 的 建 模 方法 。 其 中 表示 微分 方程 阶 数 ,h 表示 参与 建 模 的 序列 个 数 ,用 得 较 多 的 是 
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GM(1, 1) 模 型 。GM(n, h) ÆR RE : 
定理 ”给 定 下 列 序列 {XS" (iD)) ,ii 一 1,， 2.0 hs t=1, 2.0, NN; 有 相应 的 一 阶 累加 序 
IXP WO), i=1, 2,0, h; t= 1, 2,0, NSH: aP O = D) a O 为 一 次 累加 序列 ， 


并 有 相应 的 多 次 累 差 序列 {a (aP ,t)}, i= 1, 2 ,h;t = 1, 250, N;j = 1, 250, m, 
x j=1 NA 


a a p = 2PM G4 1) — 29 = (10. 1) 
4 j=2 时 有 
a (1P t) = ce? G+) — rP (t) (10 2 
4 jan ha 
am Ca 2 =a GO ott D a? Ge” 4) (10. 3) 
再 构造 如 下 累 差 矩阵 A. RIEKE BR HS E y， 
fa (2 ,2) a (aP, e — a (2 ,2) 
Pen — a (2 ,3) 一 ae (aP ,3) … — a (lP ,3) (10.4) 
一 aorD (ce yn) — a? (aP on) ove a? (ah? n) 
-AAPO +2) PD sai 
Leap xf? (2)) a (3) ae 13) 
B= 2 (10. 5) 


= FO? +2 X=) Gti =. aus 


L J 
a™ Ga 52) 
a” Ga 53) 
Jn = š (10. 6) 
aO a, N) 
EW h 个 序列 n 阶 微分 方程 所 表达 的 动态 模型 , 即 GM, /模型 为 : 
一 一 ) PEN d“ a ) 
= brh + dpa? 十 … + brir? (10.7) 
则 微分 方程 的 系数 向 量 为 â= Ca sazan E 01,02，…,b,-1) 可 以 通过 最 小 二 乘法 求解 
4 二 [(A i BA? BD] TA i B)"y,; 式 中 (A : B) 为 由 A,B AAA oT RE 


灰色 模型 适用 范围 分 析 
(1) 作为 预测 模型 ,常用 GM, 1) 模 型 , 即 只 有 一 个 序列 变量 的 GM 模型 。 这 是 因为 
对 社会 经济、 农业 等 系统 效益 (效果 、 产 量 、 产 值 等 ) 的 发 展 变化 进行 分 析 和 预测 时 ,只 需 研 
究 一 个 变量 , 即 “ 效 果 ” 的 数据 序列 。 至 于 阶 数 n 一般 不 超过 3 阶 , 因 为 越 大 ,计算 越 复杂 ， 
其 精度 也 未 必 就 高 。 当 n 二 2 时 , 即 灰色 二 阶 预测 模型 , 既 能 反映 系统 的 趋势 性 变化 特征 ,又 
“ Zole 


+e + a,r P 


能 反映 系统 的 周期 性 变化 特征 。 但 计算 量 大 , 且 模型 精度 低 。 为 计算 简单 ,通常 取 "一 1, 因 
此 ,从 预测 角度 来 建 模 , 一 般 选 定 GMO, 1) 模 型 。GM(1, 1) 模 型 适用 于 纯 指数 单调 变化 
发 展 的 过 程 ,适用 于 指数 规律 增长 的 领域 ,而 一 般 经 济 、 社 会 等 领域 大 都 是 此 种 规律 ,所 以 这 
些 领域 建 模 以 GM(1, 1) 模 型 为 主 。 有 时 为 了 对 非 纯 粹 的 指数 发 展 过 程 ( 即 非 单 调 变 化 的 、 
有 摆动 的 发 展 序列 ) 进 行 预测 ,要 用 到 GMO, DEW, 

(2) 作为 状态 模型 ,常用 GMO, 有) 模型 。 因 为 它 可 以 反映 一 1 个 变量 对 某 一 变量 一 
阶 导 数 的 影响 。 当 然 , 这 需要 hh 个 时 间 序 列 ,并 且 事 先 必须 作 尽 可 能 客观 的 分 析 , 以 确定 哪 
些 因 素 的 时 间 序 列 应 计 和 人 这 大 个 变量 中 。 但 GMO, 及) 模型 只 能 反映 其 他 一 1 个 变量 对 
某 一 变量 的 一 阶 导数 的 影响 ,不 能 反映 多 因素 系统 内 各 变量 之 间 的 相互 作用 。 

(3) 作为 静态 模型 ,一 般 是 GMO, DA, B n 二 0, 表 示 不 考虑 变量 的 导数 ,所 以 是 静 
态 。 它 与 线性 回归 模型 形式 相似 ,但 有 本 质 区 别 , 即 它 建 立 在 生成 数列 的 基础 上 ,而 线性 回 
归 模 型 建立 在 原始 数据 基础 上 。 

(4) Verhulst 模型 是 对 序列 数据 呈 饱 和 S 形 曲线 的 情况 进行 预测 。 将 二 次 震 非 线性 微 


a ar =b (2)? 称 为 Verhulst 模型。 常用 于 人 口 预测 .生物 生长 .生命 周 其 


预测 和 产品 经 济 寿命 预测 等 。 如 果 X AR EP SES 形 ,而 其 一 次 累加 呈 增 长 型 ,对 X 仍 建立 
GM(1, 用) 模型 最 合适 。 因 为 GM 模型 是 以 生成 数 建 模 ,根据 GMO, hh) 的 响应 函数 可 知 ， 
BEZ k 的 增 大 ,指数 函数 具有 较 强 的 增长 性 ,这 与 实际 的 一 次 累加 数列 的 增长 型 很 吻合 ;而 
采用 Verhulst 模型 不 一 定 合适 。 


10.2 灰色 预测 模型 


灰色 预测 就 是 通过 少量 的 、 不 完全 的 信息 ,建立 灰色 微分 预测 模型 ,对 事物 发 展 规 
律 做 出 模糊 性 的 长 期 描述 。 灰 色 预 测 法 是 一 种 对 含有 不 确定 因素 的 系统 进行 预测 的 
方法 。 通 过 鉴别 系统 因素 之 间 发 展 趋势 的 相 异 程度 , 即 进行 关联 分 析 , 并 对 原始 数据 
进行 生成 处 理 来 寻找 系统 变动 的 规律 ,生成 有 较 强 规律 性 的 数据 序列 ,然后 建立 相应 
的 微分 方程 模型 ,从 而 预测 事物 未 来 发 展 趋势 的 状况 。 其 用 等 时 距 观测 到 的 反应 预测 
对 象 特征 的 一 系列 数量 值 构造 灰色 预测 模型 ,预测 未 来 某 一 时 刻 的 特征 量 , 或 达到 某 
一 特征 量 的 时 间 。 小 样本 、 贫 信息 不 确定 性 系统 的 大 量 存 在 ,决定 了 灰色 序列 预测 模 
型 具有 十 分 宽广 的 应 用 领域 。 

灰色 预测 的 类 型 包括 : 

(1) 灰色 时 间 序 列 预 测 。 即 用 观察 到 的 反映 预测 对 象 特征 的 时 间 序 列 来 构造 灰色 预测 
模型 ,预测 未 来 某 一 时 刻 的 特征 量 , 或 达到 某 一 特征 量 的 时 间 。 

(2) 畸变 预测 .灾变 预测 ,季节 灾变 预测 。 即 通过 灰色 模型 预测 异常 值 出 现 的 时 刻 , 预 
测 异常 值 什么 时 候 出 现在 特定 时 区 内 。 

(3) 系统 预测 。 通 过 对 系统 行为 特征 指标 建立 一 组 相互 关联 的 灰色 预测 模型 ,预测 系 
统 中 众多 变量 间 的 相互 协调 关系 的 变化 。 

(4) 拓扑 预测 。 将 原始 数据 作曲 线 , 在 曲线 上 按 定 值 寻找 该 定 值 发 生 的 所 有 时 点 ,并 以 
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该 定 值 为 框架 构成 时 点 数列 ,然后 建立 模型 预测 该 定 值 所 发 生 的 时 点 。 本 节 将 详细 介绍 灰 
色 序 列 预测 中 经 典 的 GM(1, 1) 预 测 模型 。 


10.2.1 建立 灰色 预测 模型 


灰色 预测 是 指 基于 灰色 动态 模型 GMO, 1) 的 预测 ,灰色 预测 模型 一 般 指 GMO, 1) 
型 。 数 列 灰色 预测 的 步骤 如 下 : 

第 一 步 : 级 比 检验 , 建 模 可 行 性 分 析 。 

对 于 给 定 序列 XO ,能 和 否 建立 精度 较 高 的 GM(1,1) 预 测 模型 ,一般 可 用 XO 的 级 比 
ao (k) 的 大 小 与 所 属 区 间 , 即 其 覆盖 来 判断 。 

事前 检验 准则 : 设 XO = Ce (1),z@ (2) ge (n)) oe (k) z” (k—1)E X”, H 
2 (RE 一 1) 


一 oO , 则 当 o? (k) E (eH, e)p 时 ,序列 XO 可 作 


RE o (kh) Ao (Ck) = 


GMG, 1) 建 模 。 

第 二 步 : 数据 变换 处 理 。 

数据 变换 处 理 的 原则 是 经 过 处 理 后 的 序列 级 比 落 在 可 容 覆 盖 中 ,从 而 对 于 级 比 不 合格 
的 序列 ,可 保证 经 过 选择 数据 变换 处 理 后 能 够 进行 GM(1, 1) 建 模 。 通 常 的 数据 变换 有 平 
移 变 换 、 对 数 变换 . 方 根 变换 。 

第 三 步 GM(1,1) 建 模 。 

(1) 检验 序列 的 非 负 性 ,如 果 序 列 中 的 数据 有 负数 , 则 进行 非 负 化 处 理 , 即 所 有 序列 数 
据 加 最 小 负数 绝对 值 。 对 含有 零 的 序列 在 事前 检验 时 ,一般 要 做 一 次 累加 处 理 , 消 除 序列 中 
的 零 。 

(2) 设 原 始 数据 为 XO 一 (X 1), X (2)，…,XO (2))( 对 含有 负数 的 序列 , 则 是 经 


过 非 负 处 理 并 进行 了 一 次 累加 以 后 的 序列 ), 计算 一 次 累加 序列 XP G) = SVX CR), 


(3) 建立 矩阵 
— 0, 5(X (1) + X® (2)) 1 
— 0. 5(X (2) + X® (3)) 1 
B= i . (10. 8) 
—0.5(X? (n—-1)+X%(C™)) 1 


(4) 根据 公式 (10.9), 求 估计 值 4 和 5 


| 
a xX (3) 
|= Gay By dip, y=] . (10. 9) 
$ : 

XO Ca) 


(5) 用 时 间 响 应 方程 KotD= (Xo) Je ee btw ate x Gy, 
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(6) 用 后 减 运算 还 原 , 即 XO =X G L (一 1)，i 一 2 n 
10.2.2 灰色 预测 模型 实例 


某 市 服装 市 场 各 年 服装 销售 额 数据 如 表 10. 2 第 三 栏 所 示 , 试 用 灰色 系统 预测 法 ,预测 
该 市 场 2002 年 服装 销售 量 。 


表 10.2 某 服装 市 场 各 年 服装 销售 额 数据 及 预测 值 ( 单 位 : 万 元 ) 


年 份 | 销售 额 X” | RIX | 累加 招 预 测 值 Xo | 年 销售 预测 值 XO 
1 1994 210 210 210 210 
2 1995 234 468 258 
3 1996 320 749 281 
4 1997 286 1055 306 
5 1998 360 1389 334 
6 1999 348 1754 365 
7 2000 400 2151 397 
8 2001 440 2584 433 


数据 来 源 : 参考 文献 [57] 

第 一 步 : 计算 各 年 累加 生成 数列 如 表 10. 2 第 四 栏 。 
X® A) = X® (1) = 210 
X (2) = XV 1) + X” (2) = 444 
X? (3) = XP (2) +X (3) = 764 


其 余 可 类 推 。 
第 二 步 : 计算 矩阵 B 和 向 量 Y。 
一 0.5(X (1) + X! (2)) 1 
— 0. 5(X® (2) + X! (3)) 1 


— 0, 5X a= 1) FXG) i 
f— 0. 5(210 + 444) 1 —327 1 
— 0.5(444 + 764) 1 一 604 
—0.5(764+1050) 1 — 907 

= |—0.5(1050+ 1410) 1|= | 一 1230 

1 
1 
| 


— 0. 5(1410 + 1758) — 1584 
— 0.5(1758 + 2158) — 1958 
— 0. 5(2158 + 2598) — 2378 


ee ee eh le hh 
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34 


xX (2) in 
286 
X (3) 
= . = |360 
o 348 
AX “(ny 
400 
440 
第 三 步 : 计算 (BTB) BTY, 
r—327 1 
—604 1 
一 907 1 
327 一 604 一 907 一 1230 一 1584 一 1958 一 2378 
B'B | |. —1230 1 
1 1 1 1 1 1 
一 1584 1 
一 1958 1 
[一 2378 1] 
ii 804 998 =a] 
— 8988 7 
P 入 804 998 站 in 000 000 306 0. 00 039 333 
— 8988 7 0. 00 039 333 0. 647 897 347 
[2347 
320 
286 
327 —604 —907 1230 一 1584 一 1958 — 2378 
B'Y = 。|360 
1 1 1 1 1 1 
348 
400 
[440] 
7 站 352 | 
B 2388 


第 四 步 : 计算 参数 4,6, 据 公式 (10.9) 得 : 
0. 000 000 306 0. 000 393 33 ] i 3352 “el 
0.000 39333 0. 647 897 347 2388 


(BTB) BTY = | 


P 0. 086 S] 
228. 440 92 


则 â=—0. 086 67,6=228. 44 092, 
第 五 步 : 根据 时 间 响 应 方程 ,确定 累加 值 预测 公式 : 


X? (十 1) = (xD 一 二)ea pE = (210 +2635. 755) e% 8°" — 2635, 755 
a a 
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= 2845, 755e% 8657 一 2635. 755 
观察 期 累加 预测 值 1994 年 X (1) = 2845. 755e% — 2635, 755 = 210; 1995 年 
X? (2) = 2845. 755e% 971 — 2635, 755=468; R A] HE EILE 10. 2 第 五 栏 。 
预测 期 2002 年 度 累加 预测 值 : XL (9) = 2845. 755e% 9*8 一 2635. 755—= 3057 
第 六 步 : 求 年 度 预 测 值 。 根 据 X© G)=X@ G)—-X® G-1), 
观察 期 预测 值 : 1995 年 X (2) 二 468 一 210 二 258, 余 可 类 推 , 见 表 10. 2 第 六 栏 。 
预测 期 2002 年 年 度 预测 值 : XO (9) 一 3057 一 2584 一 473。 


10.3 灰色 聚 类 分 析 


灰色 聚 类 按 肾 类 方法 可 分 为 灰色 关联 聚 类 和 灰色 白化 权 函 数 聚 类 。 

(1) 灰色 关联 聚 类 通过 各 对 象 因素 之 间 相 互 的 关联 度 ,给 定 一 个 分 类 标准 将 各 对 象 划 
分 成 各 个 类 。 灰 色 关联 聚 类 计算 相对 于 灰 类 白化 权 函 数 聚 类 计算 更 简便 ,但 只 能 根据 计算 
结果 来 决定 分 几 类 ,对 于 对 象 属于 特定 类 别 的 情况 不 能 进行 相应 的 处 理 , 划 分 方法 较 粗 糙 ， 
主要 用 于 同类 因素 的 合并 

(2) 灰色 白化 权 函 数 聚 类 根据 灰 数 的 白化 权 函 数 将 各 个 聚 类 对 象 的 各 项 指标 的 白化 值 

经 过 综合 处 理 后 ,将 观测 对 象 划分 到 事先 设 定 的 不 同类 别 。 灰 色白 化 权 函 数 聚 类 法 计算 方 
法 简单 ,综合 能 力 较 强 ,准确 度 较 高 ,可 决定 各 对 象 所 属 的 设 定 类 别 。 其 评价 结果 是 一 个 向 
量 ,描述 了 聚 类 对 象 属于 各 个 灰 类 的 强度 。 根 据 向 量 对 聚 类 结果 进行 再 分 析 ,提供 比 其 他 方 
法 丰富 的 评判 信息 ,对 于 评判 等 级 论 域 属于 灰 类 的 问题 都 可 应 用 这 种 方法 ,可 用 于 多 因素 多 
指标 的 综合 评价 。 此 方法 弥补 了 其 他 方法 的 不 足 , 同 时 也 克服 了 传统 的 用 单一 值 评价 多 因 
素 多 质变 问题 的 浆 病 。 


10.3.1 基于 灰色 关联 度 的 聚 类 分 析 


灰色 关联 的 基本 思想 

灰色 关联 分 析 的 基本 思想 是 根据 系统 内 部 各 因素 之 间 发 展 态 势 的 相似 、 相 异 程 度 来 衡 
量 因素 之 间 关 联 程度 的 一 种 方法 , 即 根据 灰色 时 间 序 列 曲 线 几 何 形状 的 相似 程度 来 判断 其 
联系 是 否 紧 密 。 曲 线 越 接 近 , 相 应 灰色 时 间 序 列 之 间 的 关联 上 度 就 越 大 ,反之 就 越 小 。 它 与 传 
统 的 系统 相关 分 析 有 所 不 同 , 它 克服 了 传统 的 系统 相关 分 析 中 的 缺憾 , 它 不 受 变量 、 典 型 分 
布 等 的 限制 。 

定义 10.1 灰 关联 度 

B XS {tos Xxi,"…，Xxm}) 为 灰色 关联 因子 集 ,系统 特征 序列 为 zo 二 (zxo(1) ，zo(2) ars 
xo (n)) ,相关 因素 序列 为 xz; 二 (xi(1) ，zi(2)，…zi(2))。zo(R) ,Xi(k) 分 别 为 xo 与 x; 的 第 


k 个 数据 点 。 给 定 ~(zo (&) ,zi(k)) 为 实数 ,wi Hk 点 权重 ,满足 0 之 w 志 1,》) w= 1。 
k=1 
ti) = y ar r oa) (10. 10) 
k=1 
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若 满足 以 下 四 个 条 件 : 

(1) 规范 性 : 0 委 r(zo,z) 委 1, 若 r(Czoz) 三 0 人 zoomiEp(Cp 为 空 集 ); 若 rto, x)= 
1S2 =z: Et 与 x; 同 构 ; 

(2) 偶 对 对 称 性 ; Vii.) EX, r(x) = raj si) OX =(2;+2;); 

(3) RAIRE: Varr EXS {z,|05=0,1; n; n22}, H rriar) Arli), GAj); 

(4) 接近 性 : | (KR) — 9; (R) | BU) or Cay (RB) ,zi(R)) 越 大 。 

则 称 r(x ,Xi ) 为 Xo 对 Ti 的 灰 关 联 度 , 亦 称 为 灰 关 联 映 射 ,通常 简 记 为 Toisr (xo (k), 
Zi(R)) 为 zi 对 zo 在 第 & 点 的 关联 系数 , 简 记 为 ro CA) ,并 称 上 述 4 个 条 件 为 灰色 关联 四 
公理 。 

2. 几 种 常用 的 灰色 关联 度 

利用 位 移 差 和 斜率 (速度 .加 速度 ) 来 表示 关联 度 , 是 目前 许多 关联 度量 化 模型 的 基本 
思路 。 

O 邓 氏 关联 度 

rato sti) = =D) rary (hk) ,xilk)) (10. 11) 
f=1 
min min | zo (k) — x; (k) |+ p max max | zo (k) — x; Ck) | 
rm Ck) ,x(k)) = | x(k) — x: (k) |+ p max max | xo (k) — x: (k) | 


其 中 ,pE€ (0, 十 0) 为 分 辨 系 数 。 这 是 邓 聚 龙 教 授 提出 的 灰色 关联 度 , 在 众多 的 关联 上 度量 化 
模型 中 最 为 典型 。 按 照 公 式 (10. 12) 中 定义 的 算式 可 以 得 灰色 关联 度 的 计算 步骤 如 下 : 
第 一 步 : 求 各 序列 的 初 值 像 ( 或 均值 像 )。 令 
的 
A(R) =| 25 (R) — ith) |), A; = (AD). A (2) 60. AG) i=1,2,%%,m (10.13) 
第 二 步 : 求 两 极 最 大 差 与 最 小 差 , 记 为 
M = max maxA; (k) ， m= min minA; (k) (10. 14) 
第 三 步 : 求 关联 系数 。 


Anya. Bate oar Shee (10. 15) 


(10. 12) 


Ai(k) + M 
第 四 步 : 计算 关联 度 。 
IS . 
roi = m rahs i = 1,2,…,m (10. 16) 


例如 , 某 市 工业 、 农 业 、 运 输 业 、 商 业 各 部 门 的 数据 如 下 : 

工业 : Xi=(zx1(1), x1(2), zx1(3), zx1(4))=(45. 8, 43.4, 42.3, 41.9) 
农业 : Xs 二 (zx2(1), za (2), zx2 (3), zx2(4))=(39.1, 41.6, 43.9, 44.9) 
运输 业 : Xs 二 (zx3(1), zs(2), zs(3), zs(4))= (3.4; 3.3, 3.5, 3.5) 
商业 : X= Ca, A), za(2), 243), za(4))=(6.7, 6.8, 5.4, 4.7) 

以 Xi 为 系统 特征 序列 ,计算 灰色 关联 度 。 
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第 一 步 : 求 初 值 像 , FOX! = X,/2;(1) = (2/1) ,zx/(2) ,x/(3),x/(4)),i 二 1,2,3,4 得: 
X1 一 (1,0.9475 ,0. 9235,0. 9148) 
XS lyl.06% 1.122751. 1483) 
X4= (1,0. 97,1. 0294.1. 0294) 
X= (1,1. 0149,0. 805,0. 7015) 
第 二 步 : 求 差 序列 ,由 A: (A) =| ap (hk) — ai (hk) | i= 2.3.4 得 : 
A, = (0,0. 1155,0. 1992,0. 2335) 
As = (0,0. 0225,0. 1059,0. 1146) 
A, = (0,0. 0674,0. 1185,0. 2133) 


第 三 步 : RARA. 
M = max maxA,;(k) = 0. 2335, m = min minA;(R) = 0 
i k i k 
第 四 步 : 求 关 联系 数 , 取 po 二 0.5, 由 公式 (10. 12) 得 : 


0. 116 75 A ao , 
Ak) +0. 116 75’ i= 2,3,4;k = 2:34 MA M 


riz(1) = 1, r12(2) = 0.503, r12(3) = 0. 3695, rız (4) = 0. 3333 
rs(1) = 1， na(2) = 0.8384, ris(3) = 0.5244, ns(4) = 0.504 
ru) =1, ru (2) = 0.634, ru(3) = 0.4963, ru (4) = 0. 354 
第 五 步 : 求 灰 色 关 联 度 。 
4 4 
re = Dy nk) = 0.5515 ns = ED) ns) = 0.7175 
k=1 


k=1 


ru(k) = 


4 


ru = +>) ruk) = 0.621 
4 


@ 广义 灰色 绝对 关联 度 
1 十 | So | 十 | Si | 


ee Ea 10.17 
Eog 1+] so I+] s; | 二 | 一 ;56: | i i 
其 中 
nl 
| s l= DH) + Ly (10. 18) 
k=2 
i 1 
1s l= | Èr HF (10. 19) 
k=2 
nl 
1 
ls 一 % |= 2y O = yo RI) + FCs) 一 加 (0) (10. 20) 


其 中 ,yo (k) = zo Ck) 一 zo (1), yik) =r; (2) — 2,1) (k=1, 250°, 02), 
广义 灰色 绝对 关联 度 的 适用 范围 较 广 , 它 对 等 时 距 序 列 、 非 等 时 序列 以 及 序列 中 有 多 个 
数据 空缺 的 情形 均 适 用 ,甚至 还 可 用 计算 长 度 不 同 的 序列 间 的 关联 度 。 
© B 型 关联 度 
(10, 21) 


r(xzo ,Xi) = 
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+ 


ds? = Dd (k) = D>) | x(k) — zolk) | (10. 22) 
=] k=1 


dP = DS) dP k) = È) | Cay (2) — ro (R- 1) — Cai (2) — 2; (R-1)) | (10. 23) 
k=2 k=2 


d? = D) R O= Dm nk DD — nk— 1D) 0. 24) 
k=3 k=3 


ds? dP ,d? 分 别 为 离散 函数 xz;(&) 与 zo(k) 的 位 移 差 ,一 阶 和 斜率 差 和 二 阶 和 斜率 差 。 上 
述 关 联 度 是 根据 事物 发 展 过 程 中 的 相近 性 与 相似 性 而 提出 的 ,其 基本 思想 是 用 描述 相近 性 
的 物理 特征 位 移 差 及 描述 相似 性 的 物理 特征 速度 差 ( 一 阶 和 斜率 差 )、 加 速度 差 ( 二 阶 和 斜率 差 ) 
来 共同 反映 序列 间 的 关联 程度 。 


3. 灰色 关联 聚 类 模型 

设 有 nn 个 观测 对 象 ,每 个 对 象 观测 含有 m 个 特征 数据 ,得 到 序列 如 下 : 
X, = (xı (1) zı (2) 5 *** ,Xx1(n)) 
Xs. = Gee (1) 5392) 2 


Xa = (6m 1) 90m ym (Cn) 
对 所 有 的 i<j .ij 二 1,2,…,m 计算 出 X;,X; 的 绝对 关联 度 e; ,得 上 三 角 和 矩阵 4 称 为 
特征 变量 的 关联 和 矩 阵 


E€ €12 Elm 
E22 E2m 

A= te : (10, 25) 
Emm 


取 临 界 值 rxEL0,1] ,一 般 要 求 r>0. 5,4 e; SrGAj Mt WWM X; 与 X; 为 同类 特征 。 

定义 10.2 灰色 关联 聚 类 

特征 变量 Xi ，Xs ,…，X, 在 临界 值 下 的 分 类 称 为 特征 变量 的 r 灰色 关联 聚 类 。r 可 
根据 实际 问题 的 需要 确定 ,r 越 接近 于 1, 分 类 越 细 ,每 一 组 分 类 中 的 变量 相对 地 越 少 ;r 越 
小 分 类 越 粗 ,这 时 每 一 组 分 类 中 的 变量 相对 地 越 多 。 

4. 灰色 关联 聚 类 实例 分 析 

假设 评定 某 一 职位 的 任职 资格 。 评 委 们 提出 了 15 个 指标 : 1 申请 书 印象 ;2" 学 术 能 力 ; 
3" 讨 人 喜欢 程度 ;4 自信 程度 ;5 精明 ;6? 诚 实 ;7 推销 能 力 ;8" 经 验 ;9" 积 极 性 ;10" 抱 负 ;11" 外 
貌 ;12" 理 解 能 力 ;13" 潜 力 ;14" 交 际 能 力 ;15" 适 应 能 

认为 某 些 指标 可 能 相关 或 混同 的 ,希望 通过 对 少数 对 象 的 观测 结果 ,将 上 述 指标 适当 归 
类 , 删 去 一 些 不 必要 的 指标 ,简化 考察 标准 。 对 上 述 指标 采取 打分 的 办 法 使 之 定量 化 , 九 名 
考察 对 象 各 个 指标 所 得 的 分 数 如 表 10. 3 所 示 。 
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表 10.3 九 名 考察 对 象 15 个 指标 得 分 情况 


No. 1 2 3 6 4 8 9 
Xi 6 9 7 7 9 9 9 
X2 2 5 3 7 8 9 7 
Xs 5 8 6 6 8 8 8 
X4 8 10 9 8 8 9 
Xs 7 9 8 7 8 9 8 
Xe 8 9 9 10 8 8 8 
X7 8 10 7 5 8 8 5 
Xs 3 5 | 9 10 10 9 
Xo 8 9 9 6 8 9 8 
X10 9 9 9 5 10 10 9 
Xu 7 10 8 7 9 9 9 
Xe 7 8 8 8 8 9 8 
X13 5 8 6 6 9 9 8 
Xu 7 8 8 6 8 9 8 
X15 10 10 10 6 10 10 10 


数据 来 源 : 参考 文献 [57] 
对 所 有 的 i<j;i,j 二 1,2,…,15, 根 据 公 式 (10.17) 计 算出 X; 与 X; 的 灰色 绝对 关联 度 ， 
得 上 三 角 和 矩阵 表 ( 人 参见 表 10. 4)。 
表 10.4 15 个 特征 指标 的 关联 矩阵 
X% Xz X; X4 Xs Xs X, Xs Xo Xo Xu Xz Xr Xu Xs 


Xi 1 0.66 0.88 0.52 0.58 0.77 0.51 0.66 0.51 0.51 0.9 0.88 0.8 0.67 0.5 
X: 1 0.072 0.51 0.53 0.59 0.5 0.99 0.51 0.51 0.63 0.62 0.77 0.55 0.5 
X: 1 0.56 0.7 0.51 0.72 0.51 0.51 0.51 0.8 0.78 0.9 0.63 0.5 
X 1 0.56 0.53 0.58 0.51 0.69 0.62 0.52 0.52 51 0.54 0.6 
Xs 1 0.065 0.51 0.53 0.53 0.52 0.61 0.61 0.55 0.75 0.52 
Xe 1 0.51 0.59 0.05 0.52 0.84 0.86 0.66 0.81 0.5 
X, 1 0.5 0:7 0.83 0.51 0.51 0.51 0.51-0.89 
Xe 1 0.51 0.51 0.63 0.62 0.77 0.55 0.5 
Xo 1 0.81 0.52 0.52 0.51 0.53 0.76 
Xio 1 0.51 0.51 0.51 0.52 0.92 
Xu 1 0.97 0.74 0.71 0.5 
Xie 1 0.973: O72 5 
Xi 1 0.6 0.5 
Xu 1 0.52 
Xi 1 
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利用 表 10.4 即 可 对 指标 进行 聚 类 。 临 界 值 > 可 根据 要 求 取 不 同 的 值 。 例 如 令 "一 1, 则 
上 述 15 个 指标 各 自 成 为 一 类 。 

令 "一 0.8, 从 第 一 行 开 始 进行 检查 , 挑 出 大 于 等 于 0.8 的 6; ,有 : 

sl 一 0.88，s 一 0.90，gsliz 一 0.88， e113 = 0.80, ss 一 0.99， 
e311 = 0.80, si 一 0.90， e611 = 0.84, si = 0.86, su = 0.81, 
€7,10 = 0.83, e715 一 0.89， slo 一 0.81， eros = 0.92, sl 一 0.97。 

从 而 可 知 : Xs ,Xi ,Xi ,Xis 与 Xi 在 同一 类 中 ; Xs 与 X: 在 同一 类 中 ;Xi ,X13 与 X3 在 
同一 类 中 ;Xi ,Xiz ,Xu 与 Xs 在 同一 类 中 ;Xio, Xs 5 X 在 同一 类 中 ;Xi 与 Xe。 在 同一 类 
中 ;Xi 与 Xu 在 同一 类 中 ;Xi 与 Xu 在 同一 类 中 。 取 标号 最 小 的 指标 作为 各 类 的 代表 ,并 将 
Xs 所 在 类 的 指标 Xe ,Xu 与 Xn X EIA Xi 所 在 的 类 中 ;将 X 与 Xi 一 起 归 入 X, 所 在 
的 类 中 ; 视 未 被 列 出 的 Xi ,Xs 各 自 成 为 一 类 ,就 得 到 十 五 个 指标 的 一 个 聚 类 ， 

L X,, X35 Xp Xi» Aur Mes Xu > << Xz, Xe, <M >, 
< X; >, =X, Xs Xos Xs > 


10.3.2 基于 灰色 和 白化 权 函 数 的 聚 类 方法 


1. 灰色 白化 权 函 数 聚 类 算法 

灰色 白化 权 函 数 聚 类 是 以 灰色 的 白化 函数 生成 为 基础 的 方法 。 它 将 聚 类 对 象 或 评价 对 
象 对 不 同 聚 类 指标 或 评价 指标 所 拥有 的 白化 值 (实测 值 或 分 析 数 据 ), 按 若干 个 灰 类 或 评价 
等 级 进行 归纳 整理 ,从 而 判断 聚 类 对 象 属于 哪 一 灰 类 的 灰色 评估 法 。 

设 聚 类 对 象 ,序号 为 i 二 1, 2,…, n, i€ 71; 聚 类 指标 ,序号 为 j 二 1, 2,…，m, jEJ; R% 
灰 类 ,序号 为 k= 二 1, 2,…,，s, AE 开 。 灰 色 聚 类 可 按 下 列 步 又 进行 : 

第 一 步 : 测定 对 象 ; 关于 指标 7 的 样本 值 zf, 写 出 样本 矩阵 A, 

第 二 步 : 根据 以 往 经 验 和 定性 分 析 结 论 来 构造 7 TR sk 子 类 白化 权 函 数 f;*(，)， 
j 三 1,，2,""*,m; 上 二 1,，2,…，s，kEK。 一 般 白化 权 函 数 有 四 种 类 型 : 典型 白化 权 函 数 、 下 
限 测度 白化 权 函 数 、 适 中 测度 白化 权 函 数 、. 上 限度 白化 权 函 数 。 在 解决 实际 问题 时 ,也 可 站 
在 所 考虑 的 n 个 聚 类 对 象 的 角度 确定 白化 权 函 数 ,也 可 以 从 大 环境 着 眼 , 根 据 所 有 同类 对 象 
(而 不 仅仅 是 局 限于 参加 聚 类 的 对 象 ) 的 样本 取 值 来 确定 白化 权 函 数 。 

第 三 步 : 根据 不 同 评估 问题 运用 变 权 、 定 权 或 者 其 他 方法 来 确定 7 指标 的 聚 类 权 q; 


j=, Dery ms 一 般 情况 下 , 灰色 聚 类 把 of = A / >) 必 ) 作 为 ;指标 k 子 类 的 聚 类 权 ( 其 


PAS 为 7 指标 & 子 类 阔 值 ), 它 适用 于 各 聚 类 指标 的 意义 、 量 纲 都 相同 的 情形 。 当 聚 类 指标 的 
意义 、 量 纲 不 同 且 不 同 指标 的 样本 值 在 数量 上 悬殊 很 大 时 ,用 作为 聚 类 权 会 引起 评估 偏 
差 . 这 时 ,可 事先 利用 层次 分 析 法 或 者 德尔 菲 法 等 方法 来 确定 指标 的 权重 ,以 体现 各 指标 在 
评估 时 的 重要 性 。 

第 四 步 : 计算 定 权 的 聚 类 系数 和 写 出 灰色 聚 类 系数 向 量 。 对象; 属于 & 灰 类 的 聚 类 系数 


计算 公式 为 中 一 > fiCay)yeri = 1, 20005 n, i € LR = 1,20, s, k © K, WHR 
j=l 


i REFER FB BE Ho, = (Gi sa? ，… 05) 
= giie 


第 五 步 : 根据 对 象 上 ;灰色 聚 类 系数 向 量 进行 聚 类 分 析 。 H max{o}} =o) ,判定 对 象 i 属 
于 灰 类 &*。 
灰 类 白化 权 函 数 肾 类 方法 的 一 般 流程 ,如 图 10. 1 所 示 。 


多 指标 y: Ar 多 指标 
对 象 1 对 象 2 Me! WEN, 


生成 指标 样本 矩阵 


设 定 决 策 灰 类 
构造 白化 权 函 数 


计算 灰色 权 系 数 
计算 灰色 聚 类 向 量 
判断 灰 类 


是 
输出 聚 类 结果 


图 10.1 灰色 白化 权 函 数 聚 类 方法 流程 图 


2. 灰色 和 白化 权 函 数 聚 类 实例 分 析 

将 灰色 聚 类 理论 应 用 到 供应 链 合作 伙伴 的 选择 问题 ,可 以 为 供应 链 伙伴 选择 的 决策 提 
供 参考 。 在 对 供应 链 合作 伙伴 进行 选择 中 把 可 供 选择 的 企业 按 综合 状况 分 为 三 个 灰 类 对 
象 , 即 首选 合作 灰 类 ,次 选 合作 灰 类 ,不 合作 灰 类 。 

第 一 步 : 从 所 在 供应 链 合作 伙伴 中 选择 八 家 候选 企业 作为 聚 类 对 象 ,主要 考虑 成 本 与 
价格 .服务 水 平 . 敏 捷 性 和 和 柔性、 质量 水 平和 财务 状况 五 个 综合 指标 ,全 面 考 察 它们 的 整体 运 
作 状 况 。 再 对 五 个 分 指标 原始 数据 进行 无 量 纲 化 和 归 一 化 处 理 , 然 后 根据 归 一 化 后 的 分 指 
标 ,计算 出 企业 i(i 王 1,，2,…,8) 关 于 各 类 综合 指标 的 样本 值 (用 百分制 表示 )。 八 个 企业 的 
五 个 综合 性 指标 的 样本 值 如 表 10. 5 所 示 。 

第 二 步 : 构造 五 个 综合 性 指标 关于 三 个 灰 类 的 白化 权 函 数 。 白 化 权 函 数 一 般 赁 经验 或 
定性 研究 结论 确定 。 这 里 对 候选 企业 是 否 可 作为 合作 伙伴 分 成 三 类 : 首选 合作 灰 类 ,次 选 
合作 灰 类 ,不 合作 灰 类 ;根据 行业 内 所 有 同类 企业 的 历史 数据 统计 得 出 的 分 类 阔 值 ,来 确定 
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聚 类 指标 的 关于 不 同 灰 类 的 白化 权 函 数 。 由 于 五 个 指标 都 是 综合 性 指标 ,因此 可 认为 它们 
具有 相同 的 白化 权 函 数 ,构造 了 五 个 综合 性 指标 关于 三 个 灰 类 的 白化 权 函 数 , 如 式 (10. 26)、 
(10.27) 和 (10.28) 所 示 。 


表 10.5 五 个 综合 性 指标 的 样本 值 


WG) 成 本 与 价格 服务 水 平 敏捷 性 和 柔性 质量 水 平 财务 状况 
1 75 81 61 56 98 
2 70 67 56 80 66 
3 68 85 59 71 63 
4 52 62 58 66 44 
5 69 71 53 59 62 
6 64 80 77 56 59 
7 45 67 46 52 32 
8 56 68 3 61 60 
0 x € [0,65] 
~ _ | <e—65) (er 
faye re [65,76] (10. 26) 
1 x € [76, +œ] 
ep Aren ee 
(5—54) 7E [54,65] 
f= (6-0) | (10. 27) 
aem 7 © Opm] 
0 x € [0,54] U [76, +œ] 
1 x € [0,54] 
(65—22) -re 
fs sash 7 € [54,65 ] (10. 28) 
0 x € [65, +00] 


第 三 步 : 运用 层次 分 析 法 确定 五 个 指标 的 聚 类 权 , 给 指标 事先 赋 权 体现 了 不 同 指标 在 
聚 类 过 程 中 作用 的 差异 性 。 运 用 层次 分 析 法 确定 的 五 个 综合 指标 权重 如 下 : 成 本 与 价格 的 
权重 (? ) 一 0. 14; 服 务 水 平 的 权重 (六 ) 一 0. 24; 敏 捷 性 和 柔性 的 权重 (六 ) 一 0. 28; 质 量 水 平 
的 权重 (7 ) 王 0. 24; 财 务 状况 的 权重 (ws) 二 0.1。 

第 四 步 : 计算 定 权 聚 类 系数 和 灰色 聚 类 系数 向 量 。 


5 
a= SA Gay i Fi (au) m + fi (a2) m 
j=l 


+ fi Cti) + fi (au) m + fi (ais) 95 
= f, (75) X 0. 14 + f, (81) X 0. 24 + fı (61) X 0. 28 
+ fi (56) X 0. 24 + fı (98) X 0.1 = 0. 4673 


“1 


5 
a = >) fea = fern) m + fen) p the (zs) 
j=l 


+ fo(rudm + fo (ris) ys = 0. 2346 


5 
o = >) fs (ry) = faaam + fs (re) p + fa (oes) ps 
j=l 


+ fs (ve) m + fs (X55) 5 = 0.5273 
第 五 步 : 根据 灰色 聚 类 系数 向 量 进行 聚 类 分 析 。 
计算 得 到 各 企业 的 灰色 聚 类 系数 向 量 , 如 表 10.6 所 示 。 
表 10.6 灰色 聚 类 系数 向 量 表 


企业 (2 首选 合作 企业 次 选 合 作 企 业 不 合作 企业 聚 类 结果 
1 0. 4673 0. 2346 0. 2982 首选 
2 0. 3563 0. 2291 次 选 
3 0. 4091 0. 2727 首选 
4 0.0218 0. 4836 次 选 
5 0. 1818 0. 4382 不 合作 
6 0. 5200 0. 2546 首选 
7 0. 0436 0. 7600 不 合作 
8 0.0655 0. 5273 不 合作 


对 企业 1,max (of) =o] =0. 4673, TII RE Aek 1 属于 可 以 最 优先 考虑 的 供应 链 合作 伙 
伴 ;对 企业 2, max (of) 一 必 一 0.4146, 可 判定 企业 2 属于 次 优先 考虑 的 供应 链 合作 伙伴 ; 同 
理 可 判定 出 企业 3 至 企业 8 的 所 属 灰 类 见 表 10. 6 的 第 五 列 , 即 灰色 聚 类 的 结果 是 最 优先 
考虑 的 供应 链 合作 伙伴 有 企业 1 .企业 3、 企 业 6; 次 优先 考虑 的 供应 链 合作 伙伴 有 企业 2、 企 
业 4 不 合作 企业 是 企业 5、 企业 7 和 企业 8。 


10.4 ”灰色 综合 评价 方法 


灰色 综合 评判 法 是 从 等 级 的 不 明确 性 出 发 ,可 以 广泛 应 用 于 机 制 复杂 、 层 次 较 多 ,难以 
从 定量 角度 建立 精确 模型 的 系统 研究 工作 中 。 多 层次 灰色 综合 评价 法 结合 了 专家 调查 法 、 
层次 分 析 法 、 灰 色 评 价 法 与 模糊 综合 评价 法 的 优势 。 首 先 利用 专家 调查 法 确定 评价 指标 集 ; 
利用 层次 分 析 法 确定 评价 指标 的 层次 结构 ,同时 计算 指标 的 权重 值 ;利用 灰色 系统 理论 研究 
部 分 信息 已 知 , 部 分 信息 未 知 的 小 样本 、 贫 信息 不 确定 系统 ;利用 综合 评判 的 方法 将 以 上 几 
种 方法 结合 ,建立 基于 灰色 系统 理论 的 评价 模型 ,更 有 助 于 对 问题 本 质 的 准确 描述 和 分 析 ， 
使 评价 结果 更 加 客观 合理 。 
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10.4.1 多 层次 灰色 综合 评价 方法 计算 步骤 


1. 确定 评价 指标 结构 

设 待 评 对 象 序 号 为 c(c 王 1, 2,…, g) ,指标 按 最 高 层 (目标 W)、 中 间 层 (一 级 评价 指标 
U;) G=1, 2,…, 2) 和 最 低层 (二 级 评价 指标 )(i 王 1,2,…, n; j=l, 2,…, m) 建 立 评价 
指标 体系 如 图 10. 2 所 示 。 


目标 于 目标 层 

U, U, | = | Un 中 间 层 

Vi Vaj | Vy stk | Vm 最 低层 
2 2 nm L 方案 层 


图 10.2 多 层次 评价 体系 结构 


2. 指标 处 理 

由 于 各 种 指标 的 量 纲 不 一 致 ,因而 无 法 直接 进行 比较 分 析 ,为 此 ,对 于 不 同类 型 的 指标 ， 
应 采用 不 同 的 处 理 方法 。 

1) 定量 指标 

针对 所 涉及 的 指标 信息 ,通过 定性 分 析 可 分 为 “ 越 大 越 优 再” 和 ”* 越 小 越 优 弄 ”, 对 原 信息 
矩阵 进行 指标 测度 的 统一 处 理 ， 即 : 

CL) 评价 指标 * 越 大 越 优 " 时 ,可 用 上 限 效果 测度 。 记 统一 后 的 元 素 为 包 = — 8, 

(2) 评价 指标 * 越 小 越 优 ?时 ,可 用 下 限 效果 测度 。 记 统一 后 的 元 素 为 bj = 

2) 定性 指标 

由 专家 评判 法 得 到 定性 指标 值 。 

3. 确定 指标 加 权 子 集 

评价 指标 U: Vi tA ts W 的 重要 程度 是 不 同 的 ,利用 层次 分 析 法 确定 指标 权重 。 求 得 
U; 的 权重 为 a;, 指 标的 权重 集 为 A 二 (aa，o ,…，q) ,满足 ww 之 = 一 0, 并 归 一 化 。 指 标 层 
Vi 的 权重 为 a; ,权重 集 A = (an, ars am), HE ag > =0,#B— 4k G= 1，2，…， 
my = Lle M7) 

4. 制定 评价 指标 的 评分 等 级 标准 

设 评价 灰 类 序号 为 e(e 王 1，2,…，g), 有 8 个 评价 灰 类 。 如 g 二 3, 则 将 评价 灰 类 取 为 
三 级 ( 强 , 中 , 弱 ); 若 g 二 4, 则 评价 灰 类 取 为 四 级 ( 优 , 良 ,中 , 差 ); 若 g 二 5, 则 评价 灰 类 取 
五 个 等 级 ( 强 , 较 强 ,一 般 , 较 弱 , 弱 )。 同 时 评分 也 可 以 选择 介 于 两 相 邻 等 级 之 间 的 数值 ,如 

oe 25. * 


评分 为 4.5、3.1、2.7、1.5 等 。 


5. 组 织 专家 评分 ,确定 评价 值 矩 阵 
,Pp, 组 织 p 个 专家 对 第 c 个 候选 方案 按 评价 指标 Vi 评分 等 级 


设 专家 序号 为 k&,k 王 1, 2,- 


标准 打分 ,得 分 为 de ,并 填写 评价 分 值 表 , 由 此 可 得 到 关于 某 方案 的 多 人 评价 矩 阵 DO 。 
利用 灰色 系统 理论 确定 评估 灰 类 ,将 分 散 的 专家 评价 信息 描述 成 属于 不 同 评价 灰 类 的 
向 量 , 最 后 对 此 向 量 进行 单 值 化 处 理 。 


6. 确定 评价 灰 类 


视 实际 评价 问题 分 析 确 定 评价 灰 类 的 等 级 g 所 对 应 的 灰 类 灰 数 e BIR BLN A CAR PB ir 
feldir)。 白 化 权 函 数 的 转折 点 的 值 为 国 值 。 可 以 从 样本 以 外 照 准则 或 经 验 用 类 比 的 方法 
获得 , 这 样 得 到 的 阔 值 称 为 客观 阔 值 。 从 评价 样本 矩阵 D(A) 中 寻找 最 大 、 最 小 和 中 等 值 ， 
分 别 作为 上 限 、. 下 限 和 中 等 值 的 阔 值 ,这 种 阔 值 称 为 相对 阔 值 。 
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7. 计算 灰色 评价 系数 
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WE c 个 候选 方案 对 评价 指标 Vs 的 第 e 个 灰 类 


对 应 的 总 灰色 评价 系数 zP = Dai. 


8. 计算 灰色 评价 权 向 量 及 权 和 矩阵 


第 c 个 候选 方案 对 评价 指标 Vi 的 第 e 个 


(e) 
= (dit ) otn ttn) Xp 


(10. 29) 


基色 评 价 系数 zx 吕 一 XIA 


灰 类 的 灰色 评价 权 re =" 


= AFA ge 


类 ,对 评价 指标 Vi AYR OF fh A EN or P= GO rao orie) o SEADIS 


U; BIAR VE BTA AE RER ° 
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9. 多 层 灰色 综合 评价 结果 


Cc) Co) 


Ta Tue 
(c) (0 
rizi Ti22 
(O) Ce) 
Tinl Vim2 


(1) 二 级 灰色 综合 评价 : 第 “个 候选 方案 的 评价 指标 U; 的 综合 评价 结果 记 为 32 = 
ARP = (OD bP se bP) A BO 可 以 得 到 指标 U; 的 灰色 评价 和 矩阵。 


Re = 


oe oie 


(Cc) (c) 
ba bys 


by bR 


Be 


(ce) 
big 


Cc) 
bs 


(2) 一 级 灰色 综合 评价 : 第 c 个 候选 方案 的 评价 指标 W 的 综合 评价 结果 了 ”一 AR 。 


10. 计算 综合 评价 值 并 排序 


B' 不 能 直接 用 于 方案 的 排序 ,需要 对 BO 作 进 一 步 处 理 。 将 各 灰 类 等 级 按 阔 值 赋 值 ， 


各 评价 灰 类 等 级 值 化 向 量 C= (dy ,do ，… 


,ds), 则 第 c 个 候选 方案 的 综合 评价 值 WO = 


BC 。 同 理 ,对 g 个 候选 方案 分 别 进行 多 层次 灰色 综合 评价 计算 ,可 得 到 W = 
(WP, WP pe, WO > ,根据 W' ”大 小 排出 gq 个 候选 方案 的 优 劣 次 序 ,参见 图 10. 3。 


评价 灰 类 8 和 
白化 权 函 数 (dp) 


评价 值 矩阵 DO 


灰色 评价 系数 xe 


灰色 评价 权 向 量 .9 


二 级 灰色 评价 权 和 矩阵 RO 


二 级 指标 权重 集 A, 


P 


二 级 灰色 综合 评价 BO 


i 


一 级 灰色 评价 和 矩阵 RO 


对 4 个 候选 方案 排序 选择 


一 级 指标 的 权重 集 为 4 


一 


| 


灰 类 等 级 值 化 向 量 C 


一 级 灰色 综合 评价 BO 


= 


综合 评价 WO 


图 10.3 多 层次 灰色 综合 评价 模型 过 程 图 


10.4.2 多 层次 灰色 综合 评价 方法 应 用 案例 
集装箱 货物 是 世界 各 大 港口 的 主要 货 种 ,集装箱 运输 成 为 港口 的 主 营业 务 ,在 港口 服务 
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供应 链 中 一 个 重要 的 多 式 联运 环节 就 是 利用 集 卡 运输 商 为 港口 提供 集装箱 运输 服务 。 假 设 
港口 管理 方 综合 多 种 服务 提供 商 选 择 指标 ,根据 进出 港 集装箱 货物 的 数量 ,确定 集 卡 运输 商 
的 和 每 个 运输 商 承担 的 集装箱 运输 量 。 

(1) 建立 港口 服务 提供 商 评 价 指标 体系 。 针 对 集 卡 运输 商 选择 的 实际 问题 ,港口 决策 
组 织 选择 四 个 准则 共计 14 个 指标 建立 集 卡 运输 商 评价 指标 体系 (参见 图 10. 4) 。 


目标 层 (W) 评价 港口 服务 提供 商 W 
| 
i i i 1 
准则 层 (U) “| 供应 商 服务 能 力 U， 供应 商 素 质 U， 供应 商 合 作 性 U, 供应 商 环境 U, 
I I 
i 三 Fi iii 
指标 层 (7) (AR | (AR | AR | AR | | GE | AR 合 || 合 || 合 经 || 社 || 地 
务 || 务 || 务 || 务 || 应 || 务 作 || 作 || 作 济 | 会 | | 理 
成 || 可 | 质 || 信 || 商 || 人 al | 态 | | 经 环 || 环 || 环 
本 || 靠 || 量 || 县 || 规 || 员 誉 || 度 | | 验 Sa || 境 | | 境 
ai A K A vn i Vai} [V32] |33 Va| [Va| [Vas 


图 10.4 港口 服务 提供 商 ( 集 卡 运输 商 ) 评 价 指标 体系 


(2) 设 定 评价 灰 类 的 等 级 为 85 一 5; 有 五 位 决策 者 参与 选择 & 一 1，2,…，5, 对 个 候选 
的 集 卡 运输 商 c(c 王 1，2,…，9) 进 行 评分 ,得 到 供应 商 评价 的 指标 矩阵 DO. WAGER 
运输 商 (c 王 1) 综 合 评价 的 全 过 程 进行 详细 阐述 ,其 他 集 卡 运输 商 评价 过 程 相同 。 


| 
4.0 3.5 30 3.5 3.0 
2:0: 25 25 20 2,5 
20°25 20 5 20 
$0 25 3, 25-28 
20° 25 2.0 2.0 2.8 
ea gaa e i Be 
Ls LS 2e LE 20 
15 20 25 5 30 
40° 35° 3.5 3,0 4,0 
3.0 3.5 3.0 3.0 2,5 
3.0 2.5 2.5 2.0 3.0 
Lo 6S 36 25°30 
3:5 3,0 3,5 4,0 -3.5 


(3) 利用 层次 分 析 法 得 到 各 层 指 标的 权重 。U 层 相 对 于 W RAER A = (A, AD, 
As ,A,)=(0. 20,0. 24,0. 18,0. 38).V 层 相对 于 U 层 的 权重 集 A,(i 王 1,2,3,4) ,Ai 一 (Au， 
Arz» Aiss Au) = (0. 4227, 0. 2709, 0. 1623, 0. 1441), A: = (Ans Az, Azn, An) 一 
(0. 3509, 0. 1894, 0.3509, 0. 1088) , As = (Azı ,As »Ass) = (0. 25,0. 25,0. 50) , A, = (Ans 
Au ,Ass)= (0. 20,0. 40,0. 40). 
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(4) 确定 评价 灰 类 。 当 g 二 5, 即 e 二 1, 2,…, 5, 给 出 评价 灰 类 的 白化 权 函 数 : 
第 1 灰 类 “ 强 ”(e 二 1), 设 定 灰 数 @1 € (0.5, ie 其 白化 权 函 数 为 : 
0 dix € [0,2] 


di 
= dix € [0,5] 


1 dix €E [5, co] 
第 2 灰 类 “ 较 强 ”(e 二 2) , 设 定 灰 数 @E[L0,4,8], 其 白化 权 函 数 为 : 


fi (dy) = 


0 dix € [0,8] 
dip _ = 
[ACh ee dix E 10.4] 
一 一 di € [4,8] 
第 3 RAS“ — ME” (e= 3) WERK: E [0,3,6], 其 白化 权 函 数 为 : 
0 dix € [0.6] 
dix 加 = 
Fdal =s 3° dix € L0,3] 
一 一 d € [3,6] 
第 4 灰 类 * 较 能 ”(e 一 人 , 设 定 灰 数 Q,E [0,1,2], 其 白化 权 函数 为 : 
o dn ¢ [0,4] 
dij = = 
fda) SS 2 dix E 10,2] 
tda dp € [2,4] 
2 
第 5 BATH" (e=5) , 设 定 灰 数 @s € [0,1,2] ,其 白化 权 函 数 为 
dix € 0,2] 
fs da) = k dix € [0,1] 
2—dj dix € [1,2] 


分 别 计算 集 卡 运输 商 1 的 评价 指标 Vi 的 灰色 评价 数 : 
T in 一 DA) 


HBD FAB: O +AC2.5) + AG. 0) +716.5) 三 -35 


a= VACAS fal D) Ff OF 5I + fe (3. 0) F5 = 3. 875 
k=1 
5 
zn = Dy fa Cath = fa (3.5) + fs(3.0) + fa (2.5) + fa (3.0) + f3(3.5) = 4 
=1 


5 
xin = Dy fa Cai = f(D + fr B0) + fa (2.5) + fi 3. 0) + fi 3. 5) = 2. 25 


ap = Drak = f5 (3.5) + fs (3.0) + fs (2.5) + fs (3.0) + fs (3.5) = 0 
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评价 指标 Vi 属于 各 个 评价 灰 类 的 总 灰色 评价 数 为 : 


5 
z 企 = Dz = 3.1 十 3.875 十 4 十 2.25 十 0 一 13.225 
e 一 1 


(5) 计算 灰色 评价 权 向 量 与 权 和 矩阵 。 记 所 有 评价 者 就 评价 指标 Va 的 第 e 个 评价 灰 类 
的 灰色 评价 权 为 rf? 二 (0.2344,0.2930,0.3025,0.1701,0)。 同 理 可 以 计算 出 其 他 评价 指 
BRIEF IRAE BY IR EDF PAL Mad EDs ris TIP. res APs TIP. PED PSPs TDs APs APs 
rips TAD 。 从 而 得 到 指标 U: 所 属 评价 指标 V; 对 于 各 评价 灰 类 的 灰色 评价 权 和 矩阵 RY (i 二 
1,2,3,4). 


crip .2344 0.2930 0.3025 0.1701 0 7 
RD = ri? | _ |0.2522 0.3152 0.3214 0.1112 0 

rp 0.1846 0.2308 0.3076 0.2770 0 

(rp 0.1558 0.1948 0.2597 0.3507 0.0390] 

[rev .1900 0.2375 0.3167 0.2558 0 7 
o [re | | 1618 0.2023 0.2698 0.3661 0 
i rp 0.1434 0.1793 0.2391 0.3586 0 

[rsp 0.1370 0.1712 0.2283 0.3425 0.1210] 

ry 0.2413 0.3016 0.3291 0.1280 0 
MP = |r |= 10.2748 0.3435 0.3053 0.0764 0 

[rp 0.2236 0.2795 0.3106 0.1863 0 

[rin 0.1900 0.2375 0.3167 0.2558 0 
RY = |r |= 0.2522 0.3152 0.3214 0.1112 0 

[rp 0.2633 0.3291 0.3135 0.0941 0 


(6) 对 Ui, U2, Us, U, 作 综 合 评价 ,其 综合 评价 结果 为 BP = ARP = (0. 2198, 
0. 2748, 0.3023, 0. 1975，0. 0056) ,BS? 一 (0. 1625, 0. 2032, 0. 2709, 0. 3222, 0. 0411), 
BSP = (0, 2408, 0.3010, 0. 3139,0. 1442,0) ;BS? =(0. 2442, 0. 3052, 0. 3173, 0. 1333, 0). 
于 是 得 到 候选 集 卡 运输 商 1 的 评价 指标 W 所 属 指 标 U; FARE RAB IR AE E 
MER? : 


Bi” .2198 0.2748 0.3023 0.1975 0.0056 
ih B? | _ |0.1625 0.2032 0.2709 0.3222 0.0411 
BP 0.2408 0.3010 0.3139 0.1442 0 
BP 0.2442 0.3052 0.3173 0.1333 0 


得 到 W EMAA h E BY? =AR” = (0. 2191, 0.2739, 0.3025, 0.1934, 0.0109). Al 
为 g 二 5, 故 决定 各 评价 灰 类 等 级 值 化 向 量 C= R BEG, — BE S= G5, 4, 3, 2, 1), 
因此 候选 集 卡 运输 商 1 的 综合 评价 值 WY 二 BC 二 3. 4963, 
同 理 , 按 照 上 述 过 程 ,可 以 得 到 其 他 集 卡 运输 商 的 多 人 多 属性 灰色 综合 评价 值 并 进行 排 
序 ,将 灰色 综合 评价 值 较 高 即 排序 靠 前 的 一 组 集 卡 运输 商 组 成 最 终 的 决策 方案 。 
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10.5 小 结 


本 章 对 灰色 系统 理论 与 方法 进行 详细 阐述 ,内容 包 括 灰色 系统 理论 概述 发展 历程 与 应 
用 现状 和 灰色 系统 的 特点 ,介绍 了 灰色 系统 GM, 刀 ) 建 模 方法 ,研究 了 灰色 预测 方法 IK 
色 关 联 聚 类 分 析 ` 灰 色白 化 权 函 数 聚 类 分 析 \` 灰 色 综合 评价 方法 和 多 层次 灰色 综合 评价 方法 
等 灰色 系统 的 技术 与 方法 。 


NPD oO fF WwW YO ~ 


. 概述 灰色 系统 理论 。 

. 阐述 灰色 系统 的 特点 。 

. 描述 灰色 系统 GM(n,h) 建 模 方法 。 

. 概述 灰色 预测 方法 。 

. 描述 灰色 关联 聚 类 分 析 。 

. 概述 多 层次 灰色 综合 评价 法 的 计算 方法 和 流程 。 
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SUE 基于 数 沁 深 沁 的 知识 推 遍 


知识 推理 主要 包括 谓词 逻辑 推理 , 非 单调 推理 、 非 确定 性 推理 、 基 于 规则 的 推理 、 基 于 案 
例 的 推理 和 定性 推理 等 。 下 面 主 要 逆 述 其 中 的 非 单调 推理 、 非 确定 性 推理 、 基 于 规则 的 推 
SE .基于 案例 的 推理 模型 。 同 时 介绍 了 三 种 基于 数据 挖掘 方法 的 知识 推理 模型 ,包括 基于 决 
策 树 的 知识 推理 .基于 关联 规则 的 知识 推理 和 基于 粗糙 集 的 知识 推理 模型 。 


11.1 知识 推理 的 分 类 


11.1.1 非 单调 推理 


不 完全 信息 处 理 问题 几乎 涉及 AI 的 所 有 领域 ,如 机 器 人 规划 、 视 觉 、. 诊 断 . 专 家 系统 、 
逻辑 程序 设计 语言 .自然 语言 理解 及 数据 库 等 。 正 是 由 于 在 信息 不 完全 下 进行 的 推理 的 跳 
跃 性 ,其 结论 是 可 证 伪 的 ,因此 我 们 说 经 典 的 逻辑 系统 无 法 解决 不 完全 信息 下 的 推理 问题 。 
因为 在 经 典 旬 辑 系统 中 由 已 知事 实 推出 的 结论 是 永 真 的 , 它 决 不 会 在 已 知事 实 增加 时 丧失 。 
即 随 着 它 的 公理 系统 的 扩大 ,或 者 说 加 入 任何 公理 到 任意 理论 中 得 到 的 新 理论 Tl 仍然 
保持 工 中 的 定理 的 有 效 性 。 即 有 IF T> P AND TUT1 THEN T1—P. 

这 反映 出 经 典 逻 辑 的 单调 性 ,也 是 人 们 把 解决 不 完全 信息 处 理 的 一 类 方法 称 为 非 单调 
推理 的 原因 。 非 单调 推理 至 少 在 三 种 场合 起 到 作用 : 

(1) 非 完全 知识 库 ; 

(2) 动态 变化 的 知识 库 ; 

(3) 在 问题 求解 时 ,常常 预 作 一 些 临 时 假设 ,并 在 问题 求解 过 程 中 根据 当时 情况 对 这 些 
假设 进行 修正 。 


11.1.2 非 确 定性 推理 


在 实际 应 用 中 ,各 种 知识 表示 及 处 理 系统 均 会 面临 不 良知 识 结构 的 问题 ,这 是 由 于 各 种 
知识 本 身 的 表达 及 推理 并 不 像 数学 或 物理 等 学 科 那 样 严格 ,或 在 某 些 情 况 下 不 需要 那么 严 
格 。 这 一 点 在 各 种 专家 系统 中 尤为 明显 。 在 实际 问题 求解 时 ,知识 处 理 系 统 需要 对 非 精 确 
的 数据 和 知识 进行 “ 非 精 确 ” 处 理 。 因 此 ,提出 了 许多 种 非 确 定性 推理 模型 ,包括 模糊 推理 、 
贝 叶 斯 概率 推理 .D-S 证 据 理论 和 粗糙 集 理 论 等 。 


1. 模糊 逻辑 与 模糊 推理 
传统 逻辑 强调 严格 性 和 精确 性 ,但 在 现实 中 ,模糊 的 现象 需要 描述 ,模糊 的 问题 需要 解 
决 ,不 但 传统 的 精确 数学 无 法 解决 这 一 类 任务 ,传统 的 随机 数学 也 无 能 为 力 。1965 年 ， 
L. A. Zadeh 提出 了 模糊 集 理论 ,从 此 开始 ,利用 数学 工具 研究 模糊 现象 引起 了 广大 研究 者 
的 注意 。 合 成 推理 规则 (Compositional Rule of Inference，CRI) 是 模糊 推理 方法 中 最 有 影 
eee. @ 


响 的 一 类 方法 。CRI 方法 基于 广义 假 言 推理 规则 (Generalized Modus Ponens, GMP) ,将 模 
糊 规则 解释 为 模糊 关系 ,并 通过 把 新 事实 与 模糊 关系 作 合成 运算 来 得 到 推理 结果 。 另 一 种 
在 控制 中 应 用 较 多 的 模糊 推理 方法 为 Takagi-Sugeno(T-S) 方 法 ,所 基于 的 模糊 规则 的 后 件 
为 输入 变量 的 线性 组 合 。 模 糊 推理 用 于 控制 时 ,常常 与 其 他 人 工 智 能 方法 相 结 合 。 如 基于 
人 工 神经 网 络 的 神经 模糊 系统 、 基 于 遗传 算法 的 进化 模糊 系统 等 ,这 些 混合 系统 一 般 具 有 和 较 
好 的 自学 习 、 自 寻 优 和 处 理 不 精确 性 数据 的 能 力 ,具有 广泛 的 应 用 前 景 。 


2. 贝 叶 斯 网 络 推理 

关于 使 用 贝 叶 斯 (Bayes) 网 的 概率 推理 工作 开始 于 Pearl。 贝 叶 斯 网 络 推 理 是 指 利用 贝 
叶 斯 网 络 的 结构 及 其 条 件 概 率 表 , 在 给 定 证 据 后 计算 某 些 节点 取 值 的 概率 。 概 率 推理 
(Probabilistic Inference) 和 最 大 后 验 概率 解释 (Maximum A Posteriori Explanation, MAP 
Explanation) 是 贝 叶 斯 网 络 推 理 的 两 个 基本 任务 。 一 个 贝 叶 斯 网 是 一 个 有 向 无 环 图 (Dag)， 
每 个 节点 表示 一 个 随机 变量 ,并 且 网 中 所 有 节点 的 联合 概率 等 于 每 个 节点 以 其 父 节点 为 条 
件 的 条 件 概 率 的 乘积 。 从 而 相 比 整个 联合 概率 分 布 , 贝 叶 斯 网 极 大 地 减少 了 所 需要 的 存储 
量 。 贝 叶 斯 网 利用 条 件 独立 性 来 组 织 概率 知识 ,用 有 向 弧 作 为 信息 传输 的 通道 ,并 且 类 似 于 
神经 网 络 , 即 采用 分 布 式 计算 来 更 新 信念 。 贝 叶 斯 网 共有 三 种 推理 模式 : 一 是 因果 推理 或 
由 上 向 下 推理 (Predictive), 二 是 诊断 推理 或 自 底 向 上 推理 (Abductive), 三 是 内 因 推 理 
(Intercausal) 。 

贝 叶 斯 分 类 是 一 种 基于 统计 的 简单 而 有 效 的 分 类 方法 , 它 可 以 用 来 预测 给 定 样 本 属于 
一 个 特定 类 的 概率 。 贝 叶 斯 分 类 以 贝 叶 斯 定理 为 基础 ,主要 有 朴素 贝 叶 斯 分 类 和 贝 叶 斯 网 
络 分 类 。 采 用 贝 叶 斯 分 类 必须 满足 下 面 两 个 条 件 : 

(1) 要 决策 分 类 的 类 别 数 是 一 定 的 ; 

(2) 各 类 别 总 体 的 概率 分 布 是 已 知 的 。 

1) 朴素 贝 叶 斯 

朴素 贝 叶 斯 分 类 的 关键 在 于 使 用 概率 表示 各 种 形式 的 不 确定 性 ,通过 训练 大 量 样本 ,在 
已 知 先 验 概率 和 条 件 概 率 的 情况 下 来 计算 后 验 概率 。 其 中 , 先 验 概 率 指 根据 以 往 经 验 和 分 
析 得 到 的 概率 ,表示 没有 训练 数据 前 假设 所 拥有 的 初始 概率 。 设 A,B 是 两 个 事件 , 且 


世人 为 在 事件 A 发 生 的 条 件 下 事件 B 发 生 的 条 件 概率 。 


贝 叶 斯 公式 : 设 试验 巨 的 样本 空间 为 S,A E 的 事件 ,Bi,B,,…,B, 为 S 的 一 个 划 
P(A | B,)P(B,) 


P(A)>0, 称 P(B| A)= 


4y, H P(A) > 0,P(B;) > 0G = 1,2,…,n), W P(B; | A) = 
>) POA | BDP@;) 


G = 1,2,…,n) 称 为 贝 叶 斯 公式 。 
贝 叶 斯 定理 : 设 X 是 类 别 标号 未 知 的 数据 样本 , 它 的 特征 是 {z ,x2，… ,Xm) ,分 别 表示 
对 m 个 属性 Ai,As,…,A 的 m 个 度量 ,这 里 假设 A; 为 分 类 型 属性 。 预 定义 的 样本 类 别 为 
C= (Cy CC)}。 贝 叶 斯 分 类 法 将 预测 样本 X 属于 后 验 概率 最 大 的 那个 类 C;, 即 
P(C |X >P |X) j 二 1,2,…,n 且 j 关 i。 其 中 ,P(C;|X) 是 后 验 概率 ,或 者 称 为 在 条 件 
X FCG 的 后 验 概率 。P(C;) 为 先 验 概率 ,其 大 小 可 由 训练 样本 中 类 别 为 C; 的 样本 数 除 以 
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样本 总 数 来 确定 。 根 据 贝 叶 斯 公式 ,我 们 可 以 得 到 P(C;|X) 的 计算 公式 PCC, | X= 


PUREPCC 7。 贝 时 斯 定理 提供 了 一 种 由 PCX)、PCC) 及 PCX1C) 计 算 后 验 概率 PCC | XD 


的 方法 。 由 于 P(X) 是 常数 ,所 以 我 们 可 以 重新 定义 PCC:|1X) 的 计算 公式 为 PCIX) S= 
P(X|C;)P(C;)。 朴 素 贝 叶 斯 分 类 算法 有 一 个 基本 假设 : 特征 项 之 间 相 互 独立 ,彼此 之 间 不 


存在 任何 的 依赖 关系 .所 以 ,P(C; | X) = [| PCa, | C) PCC) .其 中 ,如 果 属 性 A; 是 连续 值 
属性 , 通常 假设 该 属性 服从 均值 为 yc 、 标 准 差 为 cc 的 正 态 分 布 , 则 P(x;|Ci) = 
: <r pe, 和 oc 分 别 为 训练 样本 中 类 别 为 C; 的 样本 的 特征 值 x; 的 平均 值 和 


2xoc, os 
Fie. 

例 11.1 下 面 用 一 个 简单 的 例子 来 说 明 贝 叶 斯 分 类 的 过 程 , 如 表 11. 1 所 示 , 所 采用 的 
数据 集 包 含 5 个 属性 exam score( 成 绩 ) .contest( 竞 赛 ) .evaluation (评价 ) , association ( tt 
HI) scholarship (奖学金 ), scholarship 是 最 终 分 类 属性 ,exam score, contest, evaluation, 
association 是 条 件 属 性 ,利用 贝 叶 斯 方法 预测 新 样本 “Jean good city-level excellent yes” 的 
类 别 。 

(1) 属性 exam score 的 值 有 3 个 : excellent( 优 秀 ) ,good( 良 好 ) average( 一 般 )。 

(2) 属性 contest 的 值 有 3 个 : province-level( 省 级 以 上 ) city-level (Ti HRV ED. 
school-level( 校 级 ) 。 

(3) 属性 evaluation 的 值 有 2 个 : excellent( 优 秀 ) fair( 良 好 ) 。 

(4) 属性 association 的 值 有 2 个 : yes( 是 ) vno( FF). 

(5) 属性 scholarship 的 值 有 2 个 : yes( 是 ) .no( 否 )。 


表 11.1 发 放 奖学金 的 数据 属性 集合 


Name exam Score contest evaluation association scholarship 
James excellent school-level excellent yes yes 
Cherry average city-level fair yes yes 
Daisy excellent school-level excellent no yes 
Danny Good city-level excellent no yes 
Amy average school-level fair no no 
Dave Good province-level fair yes no 
Mike excellent province-level fair yes yes 
John average city-level excellent no no 
Jerry average province-level excellent yes yes 
Maggie Good city-level excellent no yes 
Kate average school-level excellent no no 


°. 224 « 


Name exam Score association scholarship 


contest evaluation 


Bill excellent city-level fair no yes 
Alice Good | city-level fair no no 
Jim Good province-level excellent no yes 


Jessica excellent 


A 


第 一 步 : 计算 训练 样本 集 每 个 类 别 的 概率 。 
从 上 表 可 以 看 出 ,训练 样本 的 目标 属性 scholarship 有 2 类 : yes、no, 分 别 有 10 个 和 
5 个 样本 ,分别 计算 这 两 个 类 别 的 概率 ,过 程 如 下 : 


P(scholarship = 'yes') = E = 0. 6667, 
P(scholarship = 'no') = 5 = 0. 3333 


第 二 步 : 为 了 计算 PCX| Ch) ,一 1,2 ,需要 计算 X 的 每 个 属性 的 取 值 相对 于 每 个 类 别 的 
概率 。 

(1) 属性 exam score 有 3 个 取 值 : excellent, good 和 average ,计算 examscore='good' 
的 条 件 概率 的 过 程 如 下 : 


P(examscore = ' good' | scholarship = 'yes'!) = 一 = 0.3; 
P(examscore = ' good' | scholarship = 'no') = 一 = 0.4 


(2) 属性 contest 有 3 个 取 值 : province-level、city-level 和 school-level, 计 算 contest = 
'city-level 的 条 件 概率 的 过 程 如 下 : 


P(contest = 'city-level' | scholarship = 'yes') = 
P(contest = 'city-level' | scholarship = 'no') = 一 一 0.4 


(3) 属性 evaluation 有 2 个 取 值 : excellent 和 fair, 计 算 evaluation='excellent' fy) & F 
概率 的 过 程 如 下 : 


P(evaluation = 'excellent' | scholarship = 'yes') = 5 = 0.7; 
P(evaluation = 'excellent' | scholarship = 'no') = 三 一 0.4 


(4) 属性 association 有 2 个 取 值 : yes 和 no, 计算 association 一 'yes' 的 条 件 概 率 的 过 程 
如 下 : 


P(association = 'yes' | scholarship = 'yes') = 


P(association = 'yes' | scholarship = 'no') = + = 0,2 
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第 三 步 : 计算 新 样本 对 两 种 类 别 的 概率 。 
P('good, city-level. excellent. yes' | scholarship = 'yes') X P(| scholarship = 'yes') 


= P(exam score = 'good' | scholarship = 'yes') 
X P(contest = 'city-level' | scholarship = 'yes') 
X PCevaluation = 'excellent' | scholarship = 'yes') 
X P(association = 'yes' | scholarship = 'yes') 
X P(| scholarship = 'yes') 
=0.3XK0.5 X 0.7 X0.5 X 0. 6667 = 0. 035 
P('good, city-level,excellent.yes' | scholarship = 'no') X P(| scholarship = 'no') 
= P(exam score = 'good' | scholarship = 'no') 
X P(contest = 'city-level' | scholarship = 'no') 
X PCevaluation = 'excellent' | scholarship = 'no') 
x P(association = 'yes' | scholarship = 'no') 
X P(| scholarship = 'no') 
=0.4*0.4 0.4 X 0.2 X 0. 3333 = 0.0043 
第 四 步 : 选择 概率 大 的 类 别 作 为 预测 类 别 。 
因为 P (scholarship = 'yes'| 'good, city-level, excellent, yes') 大 于 P (scholarship = 'no' | 
‘good, city-level, excellent, yes') ,所 以 , 待 预 测 样本 Jean good city-level excellent yes 属于 
scholarship=yes 这 一 类 别 。 
2) 贝 叶 斯 网 络 
贝 叶 斯 网 络 又 称 为 信念 网 络 或 概率 网 络 , 它 是 基于 概率 推理 的 图 形 化 网 络 , 用 一 个 有 向 
无 环 图 表示 条 件 概 率 的 分 布 , 允 许 在 变量 的 子 集 之 间 定 义 类 条 件 独立 性 。 贝 叶 斯 网 络 提供 
了 一 种 表示 因果 关系 的 方法 , 它 由 节点 和 连接 这 些 节 点 的 有 向 边 组 成 。 节 点 代表 事件 或 变 
量 , 有 向 边 代 表 节 点 之 间 的 因果 关系 或 概率 依赖 ,用 条 件 概率 来 表示 关系 强度 。 如 果 一 条 弧 
从 节点 X 指向 节点 了 ,那么 X 为 了 的 直接 前 驱 ,Y 为 X 的 后 继 。 一 个 变量 只 与 它 的 直接 前 
驱 有 依赖 关系 ,而 独立 于 其 他 变量 。 
3. D-S 证 据 方法 
证 据 推 理 最 初 是 由 Dempster 在 1967 年 提出 的 ,他 用 多 值 映射 得 出 了 概率 的 上 下 界 ,后 
来 由 Shafer 在 1976 年 推广 并 且 形 成 证 据 推 理 , 从 而 成 为 Dempster-Shafer(D-S) 理 论 。D-S 
证 据 方法 是 一 种 重要 的 证 据 表 示 和 证 据 合 成 的 方法 。D-S 证 据 理论 优点 : 赋 给 一 个 假设 一 
个 信念 值 并 不 必 将 余下 的 信念 值 赋 给 该 假设 的 反面 ;适合 处 理 不 完全 性 信息 , 即 缺 乏 明 确 性 
(Specificity) 而 带 来 的 不 确定 性 ;适合 不 确定 性 信息 融合 。D-S 理论 的 一 个 弱点 就 是 证 据 合 
成 时 会 出 现 组 合 爆炸 。D-S 证 据 理论 已 被 成 功 地 应 用 到 许多 实际 系统 中 ,如 决策 系统 、 诊 断 
系统 .模式 识别 系统 .语音 识别 系统 。 
以 上 三 种 推理 方法 所 解决 问题 的 重点 各 不 相同 : 模糊 集 理论 侧重 于 表示 和 管理 模糊 信 
息 ; 贝 叶 斯 概率 理论 具有 严格 的 数学 理论 基础 ,并 且 已 经 发 展 为 较为 完善 的 表示 和 管理 随机 
性 知识 的 方法 ,但 它 需 要 精确 的 概率 判断 ;D-S 证 据 理 论 基于 随机 集 理论 ,并 且 人 允许 不 精确 
的 概率 判断 来 抓 住 不 精确 的 证 据 , 即 结果 的 可 能 性 通过 一 个 概率 区 间 来 判断 ,而 非 点 概率 。 
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所 有 这 些 理论 和 方法 不 是 彼此 竞争 的 ,而 是 彼此 互补 的 。 


4. 粗糙 集 理论 

从 不 完全 性 信息 中 ,人 们 仅 能 得 到 概念 的 下 近似 和 上 近似 ,而 不 是 清晰 的 概念 本 身 。 在 
近似 的 过 程 中 ,不 可 区 分 性 起 着 重要 的 作用 。 不 同 的 对 象 拥有 某 些 相同 的 属性 或 性 质 , 从 而 
这 些 对 象 在 给 定 的 性 质 下 是 不 可 区 分 的 ,这 便 是 对 这 些 对 象 的 不 可 区 分 性 ,不 完全 性 信息 的 
Mj. Pawlak 首先 引入 了 粗糙 集 的 概念 , 即 粗 糙 集 理论 提供 了 从 不 可 区 分 性 ,不 完全 性 信 
息 中 发 现 知识 的 理论 和 方法 。 


11.1.3 基于 规则 的 推理 


基于 规则 的 推理 (Rule Based Reasoning，RBR) 是 基于 规则 表示 的 知识 系统 ,是 基于 领 
域 专家 知识 和 经 验 的 推理 , 它 将 专家 的 知识 和 经 验 抽象 为 若干 推理 过 程 中 的 规则 。 本 质 是 
从 一 个 初始 事实 出 发 ,根据 规则 ,寻求 到 达 目 标 条 件 的 求解 过 程 。 在 该 知识 系统 中 ,规则 通 
常用 于 表示 具有 因果 关系 的 知识 ,主要 适用 于 知识 富有 的 领域 ,但 是 知识 获取 困难 ,对 求解 
过 程 无 记忆 能 力 。 基 于 规则 的 推理 的 一 般 形 式 为 前 件 一 后 件 ,也 可 表示 为 前 件 then 后 
件 。 其 中 ,前 件 为 前 提 , 后 件 为 结论 。 前 件 和 后 件 可 以 是 由 逻辑 运算 符 and or 组 成 的 表达 
式 。 含 义 为 : 如 果 前 提前 件 满足 , 则 可 推出 结论 后 件 或 执行 后 件 所 规定 的 操作 。 基 于 规则 
推理 的 基本 思想 是 按 向 前 的 方向 检查 每 一 条 规则 , 先 看 它 的 前 提 , 如 果 前 提 被 确定 为 真 , 则 
考虑 它 的 结论 部 分 ,并 执行 结论 中 的 动作 。 如 果 前 提 被 确定 为 假 , 则 考虑 另 一 条 规则 。 在 推 
理 过 程 中 ,推理 机 采用 绝对 严密 的 推理 , 即 在 开始 推理 时 ,推理 机 反复 调用 规则 集中 的 规则 ， 
在 反复 调用 过 程 中 就 可 以 检查 还 未 启动 的 每 条 规则 的 前 提 , 这 样 在 进行 第 二 次 或 子 序列 的 
重复 调用 时 ,就 可 能 触发 前 提 原 来 为 假 或 未 知 的 规则 。 这 样 重复 下 去 直到 没有 触发 的 规则 
时 就 不 再 调用 。 推 理 过 程 如 图 11. 1 所 示 。 


11.1.4 基于 案例 的 推理 


1982 年 ,美国 耶鲁 大 学 Roger Shank 首次 提出 了 基于 案例 的 推理 (Case Based 
Reasoning，CBR) 理 论 的 认 知 模型 及 框架 。CBR 以 自然 界 的 两 大 原则 为 理论 前 提 : 

(1) 世界 是 规则 的 ,相似 的 问题 有 相似 的 求解 方法 和 过 程 ; 

(2) 事物 总 是 会 重复 出 现 的 ,我 们 遇 到 的 (相似 的 ) 问 题 或 事物 总 会 重复 出 现 。 正 是 基 
于 这 两 大 原则 ,CBR 才能 有 效 地 运用 以 前 的 经 验 和 知识 来 求解 现在 的 问题 。 对 于 以 前 所 未 
遇 到 的 新 间 题 , 则 是 CBR 的 一 个 重要 学 习 机 会 ,也 是 CBR 系统 自我 完善 能 力 的 体现 。CBR 
直接 模拟 人 类 思维 模式 ,在 遇 到 一 个 需要 求解 的 问题 时 ,首先 在 实例 库 中 检索 与 该 问题 最 相 
类 似 的 事例 并 对 其 进行 修补 ,输出 修补 后 的 结果 作为 该 问题 的 解 。 它 寻找 的 是 最 佳 匹配 ,而 
不 是 准确 的 匹配 。 

1994 年 ,Aamodt 和 Plaza 指出 一 个 CBR 过 程 主要 有 四 大 步骤 : 

(1) 检索 (Retrieval) 相 似 度 较 高 的 案例 ; 

(2) 复 用 (Reuse) 案 例 的 方法 并 通过 适当 推理 解决 当前 问题 ,生成 新 问题 的 初步 解决 
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选择 某 规则 


1 
考虑 规则 前 提 中 第 一 条 


执行 该 规则 的 结论 部 分 并 将 
其 结果 存 入 综合 数据 库 中 
J 


向 用 户 询问 


还 有 要 考虑 
9 规则 吗 ? 


No 


图 11.1 基于 规则 的 一 种 推理 方法 


Yes 


方案 ; 

(3) 修正 (Revise) 前 述 的 解决 方案 使 其 更 符合 问题 的 描述 ; 

(4) 学 习 / 保 留 (Retain) 新 的 案例 到 案例 库 中 ,该 过 程 被 称 为 R 模型 。 但 是 RY 模型 有 
两 个 不 足 之 处 : 一 是 案例 ,问题 和 问题 的 解 没有 明确 分 离 , 二 是 该 模型 假定 案例 及 案例 库 是 
已 经 存在 的 ,回避 了 构建 案例 库 也 是 CBR 过 程 的 一 个 重要 任务 。 因 此 ,G. Finnie 增加 
Repartition 过 程 , 扩 充 Rt 模型 形成 Rs 模型 ,为 建设 案例 库 和 案例 检索 提供 了 基于 相似 的 
逻辑 推理 的 数学 基础 。 

CBR 系统 具有 以 下 特点 : 

(1) 高 效 的 记忆 能 力 。CBR 系统 直接 援引 过 去 的 知识 和 经 验 ,避免 一 切 问题 从 头 再 来 
的 整 端 。 不 仅 可 以 进行 正面 的 学 习 , 还 可 以 避免 以 前 的 错误 ,从 而 一 开始 就 可 以 直 指 问题 的 
核心 。 

(2) 增 量 式 的 自主 学 习 能 力 。CBR 系统 具有 自主 学 习 的 功能 ,是 一 种 增 量 式 学 习 方法 。 
随 着 事例 的 增加 ,事例 库 的 覆盖 度 (求解 问题 的 范围 ) 逐 渐 提 高 ;同时 由 于 事例 比 规则 获取 容 
易 ,不 需要 完整 的 领域 模型 ,通过 事例 的 积累 和 经 验 的 增加 ,使 事例 推理 逐步 实用 化 。 

(3) 集成 与 扩展 能 力 。 它 可 以 方便 地 采用 成 本 较 低 的 原型 系统 进行 开发 ,在 以 后 的 学 
习 过 程 中 不 断 增加 新 事例 ,修改 旧事 例 ,提高 自己 的 判断 推理 能 力 。CBR 系统 一 般 工作 过 
程 如 图 11. 2 所 示 。 
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问题 事例 表示 
典型 事例 库 事例 检索 =| 匹配 算法 
i 

事例 重用 


i 
事例 修正 


AS 
i 
是 


保留 准则 


事例 保留 [~ 一 | 特征 抽取 规则 输出 算法 


图 11.2 CBR 系统 一 般 工作 过 程 


11.2 基于 数据 挖掘 方法 的 知识 推理 


在 知识 推理 过 程 中 会 涉及 多 种 数据 挖掘 方法 。 例 如 ,可 以 利用 聚 类 .粗糙 集 和 主 成 分 分 
析 方 法 定义 知识 推理 的 特征 项 ;使 用 模糊 技术 、 统 计 方法 建立 相似 性 的 评测 方法 ;利用 分 类 
和 聚 类 分 析 自 动 获取 和 提供 知识 索引 和 发 现 特殊 情况 下 的 离 群 值 和 孤立 点 。 本 节 主 要 介绍 
基于 决策 树 ,关联 规则 和 粗糙 集 的 知识 推理 方法 。 


11.2.1 基于 决策 树 的 知识 推理 


决策 树 (decision tree) 学 习 是 以 实例 为 基础 的 归纳 学 习 算 法 ,是 数据 挖掘 中 经 常 要 用 到 
的 一 种 简单 ` 有 效 的 分 类 算法 。 构 造 决 策 树 的 目的 是 从 一 组 无 次 序 .无 规则 的 事例 中 找 出 属 
性 和 类 别 间 的 关系 ,以 便 用 它 来 预测 将 来 未 知 类 别 的 记录 的 类 别 。 决 策 树 可 以 用 来 分 析 数 
据 辅助 决策 ,也 可 以 用 来 预测 , 它 是 一 种 由 节点 跟 有 向 边 组 成 的 特殊 的 树 结构 。 根 据 层 次 的 
不 同 ,节点 分 为 根 节点 、 内 部 节点 和 叶 节 点 三 类 。 树 的 根 节点 是 整个 决策 树 的 开始 ,对 应 整 
个 样本 集 , 也 就 是 学 习 的 事例 集 。 树 的 内 部 节点 代表 属性 或 属性 的 集合 ,表示 的 是 对 某 个 属 
性 的 测试 ,在 内 部 节点 进行 属性 值 的 比较 ,根据 不 同 的 属性 值 判断 该 节点 向 下 的 分 支 ,分 支 
就 是 分 类 的 判定 条 件 ; 树 的 叶 节 点 代表 一 个 类 标号 。 因 此 从 根 到 叶 节 点 的 一 条 路 径 就 对 应 
着 一 条 合 取 规则 , 整 棵 决策 树 对 应 着 一 组 析 取 表达 式 规 则 。 

决策 树 的 生成 通常 从 根 节 点 开始 ,根据 此 节点 对 应 的 样本 集 ,按照 某 一 标准 ,选择 节点 
相关 属性 ,然后 根据 属性 值 的 个 数 向 下 伸 出 相应 数量 的 分 支 ,形成 中 间 节 点 ,如 此 循环 下 去 ， 
直到 满足 下 面 三 个 条 件 时 ,节点 才 停 止 扩 张 , 称 为 叶 节 点 。 这 三 个 条 件 是 : 

(1) 节点 对 应 样本 集中 的 所 有 样 例 均 为 一 类 ,那么 以 此 节点 标记 此 节点 。 
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(2) 节点 对 应 样本 集 为 空 集 ,那么 以 其 父 节点 对 应 样本 集中 最 普遍 的 样 例 类 别 标记 此 
节点 。 
(3) 从 根 节 点 到 此 节点 的 父 节 点 ,所 有 的 属性 均 被 使 用 过 一 次 ,那么 处 理 方法 同 第 (2) 
种 情况 。 
决策 树 是 一 种 有 指导 的 学 习 方 法 。 该 方法 先 根 据 训 练 子 集 形 成 决策 树 。 如 果 该 树 不 能 
对 所 有 对 象 给 出 正确 的 分 类 ,那么 选择 一 些 其 他 训练 子 集 加 入 到 原来 的 训练 子 集中 ,重复 该 
过 程 一 直到 形成 正确 的 决策 集 。 最 终 得 到 一 棵 树 ,其 叶 节点 是 类 名 ,中 间 节 点 是 带 有 分 支 的 
属性 ,该 分 支 对 应 该 属性 的 某 一 可 能 值 。 
决策 树 的 算法 : 构造 决策 树 算 法 有 多 种 , 较 有 代表 性 的 有 Quinlan 的 ID3 算法 
(Iterative Dichotomiser 3, 迭代 二 又 树 3 代 ) ,Breiman 等 人 的 CART 算法 ,Loh 和 Shih 的 
QUEST 算法 Magidson 的 CHAID 算法 等 。 下 面 介 绍 最 常用 的 ID3 算法 。 早 期 著名 的 决 
策 树 算法 是 1986 年 由 Quinlan 提出 的 ID3 算法 。ID3 算法 用 信息 增益 (Information Gain) 
作为 属性 选择 度量 。 信 息 增益 值 越 大 ,不 确定 性 越 小 。 因 此 ,ID3 总 是 选择 具有 最 高 信息 增 
益 的 属性 作为 当前 节点 的 测试 属性 。 信 息 增 益 越 大 ,信息 的 不 确定 性 下 降 的 速度 也 就 越 快 。 
这 种 信息 理论 方法 使 得 对 一 个 对 象 分 类 所 需要 的 期 望 测试 数目 达到 最 小 ,并 尽量 确保 找到 
一 棵 简单 的 (但 不 必 是 最 简单 的 ) 树 来 刻画 相关 的 信息 。 
EARE: 假设 训练 样本 集 工 包含 n 个 样本 ,这 些 样本 分 别 属于 mm 个 类 ,其 中 第 i 个 
HE TP AEA pi IBA T A EY 
ich= Y = plows, 1.1) 


TEAR Ct PRON HE Entropy) KIR fie Wa AS Wt EH , BIRK FEL A TA Pr ae BEY at 
WERK. MIE AD EEE ZS RT A H UA GE EE ASRS I Do ASH AS AL TCP EY 
EL EA ES s EZ UI ECR A BEA ET DA AE DE H A ll) RE a) , 笛 特 
(十 进 制 ) 或 奈 特 (自然 单位 ) ,其 中 比特 为 最 常用 的 表示 方法 。 

假设 属性 A 把 集合 工 划分 成 V 个 子 集 {T To es Tu) FEP T: 所 包含 的 样本 数 为 n;， 
如 果 A 作为 测试 属性 ,那么 划分 后 的 炉 就 是 : 

E(A) = SARN GERE) 


本 充当 第 i 个 子 集 的 权 , 它 表示 任意 样本 属于 T: WER. HER , eu) OP BY i PE iB e 


用 属性 A 把 训练 样本 集 分 组 后 ,样本 集 的 炉 将 会 降低 ,因为 这 是 一 个 从 无 序 向 有 序 的 转变 
信息 增益 定义 为 分 裂 前 的 信息 ( 即 仅 基于 类 比例 ) 与 分 裂 后 的 信息 炉 ( 即 对 A 划分 之 
后 得 到 的 ) 之 间 的 差 。 简 单 地 说 ,信息 增益 是 针对 属性 而 言 的 ,没有 这 个 属性 时 样本 所 具有 
的 信息 量 与 有 这 个 属性 时 的 信息 量 的 差 值 就 是 这 个 属性 给 样本 所 带 来 的 信息 量 。 
Gain(A) = I(T) — E(A) C11. 3) 
ID3 算法 描述 
ID3 算法 以 自 顶 向 下 递归 的 分 而 治之 方式 构造 决策 树 。ID3 算法 就 是 根据 “信息 增益 
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越 大 的 属性 对 训练 集 的 分 类 越 有 利 ” 的 原则 来 选取 信息 增益 最 大 的 属性 作为 “最 佳 > 分 裂 点 。 
算法 描述 如 下 : 


算法 : Generate gecision tree // 根 据 给 定 的 数据 集 生 成 一 棵 决策 树 
输入 : 训练 样本 samples, 各 属性 均 取 离散 数值 ,可 供 归纳 的 候选 属性 集 为 attribute list 

输出 : 决策 树 

方法 : 


(1) 创建 一 个 节点 N; 

(2) if 该 节点 中 所 有 样本 samples 均 为 同一 个 类 C then; // 开 始 根 节 点 对 应 的 训练 样本 
(3) 返回 N 作 为 叶 节 点 ,以 类 chic; 

(4) if attribute list XZ then; 

(5) 返回 N 作 为 叶 节 点 ,标记 为 该 节点 所 含 样本 中 类 别 个 数 最 多 的 类 别 ; // 多 数 表决 

(6) 选择 attribute_list 中 具有 最 高 信息 增益 的 属性 test_attribute; 

(7) 以 test_attribute 标记 节点 N; 


(8) for each test_attribute 中 的 已 知 值 v; // 划 分 samples 
(9) 由 节点 N 长 出 一 个 条 件 为 test_attribute=v 的 分 支 , 以 表示 该 测试 条 件 ; 
(10) i sv 是 test_attribute=v 的 样本 的 集合 ; // 一 个 划分 


(11) if sv 为 空 then; 

(12) 将 相应 叶 革 点 标记 为 所 含 样本 中 类 别 个 数 最 多 的 类 别 ; 

(13) else 将 相应 叶 节 点 标志 Generate_decision_tree(sv,attribute_list-test_attribute) i& 

回 的 节点 。 

例 11.2 以 一 个 简单 的 例子 来 说 明 ID3 算法 分 类 的 过 程 。 根 据 表 11. 1 中 的 数据 , 依 
据 学 生 “ 成 绩 情况 ”“ 是 否 参 加 竞赛 “品质 情况 “是否 参加 社团 ”等 属性 ,利用 信息 增益 的 
方法 判断 是 否 为 该 生发 放 奖 学 金 。 

第 一 步 : 计算 训练 样本 的 信息 量 。 目 标 属 性 scholarship 有 2 类 : yes、no。 分 别 有 
10 个 和 5 AER. scholarship 的 信息 量 计算 过 程 如 下 : 


s-or VS EE 
KT) = 1508 1 [5 [082 0. 9183 


15 
第 二 步 : 计算 每 个 属性 的 信息 增益 。 
(1) 对 于 分 类 属性 scholarship 来 说 , exam score 有 3 个 取 值 : excellent、 good 和 
average, 把 样本 集 工分 为 3 个子 集 {T,T,,T} ,每 个 子 集 的 信息 量 的 计算 过 程 如 下 : 


S S 2n 2 

I(T,) = 0;I(T2) 5 loge 5 5 loge 5 0.971; 
2 2 3 3 

ICI) 5 loge 5 zlog: 5 0.971 


因此 ,得 到 属性 exam score AYMAN : 
EC"exam score") = a x0 +Š x 0. 971 +2 X 0.971 = 0. 6473 


T5 
应 的 信息 增益 为 : 
G("exam score") = I(T) — E("exam score") = 0. 2710 
(2) 对 于 分 类 属性 scholarship # ii. contest 有 3 个 取 值 (province-level city-level 和 
school-level) ,把 样本 集 工分 为 3 个 子 集 {TT ,T: ,T:} ,每 个 子 集 的 信息 量 的 计算 过 程 如 下 : 
* Zale 


3 


3 1 1 

ICT) 7 082 n 7 lok 1 0. 8113 
5 5 2 2 

I(T, ) 7 loge 7 7 log, 7 0. 8631 
2 2 2 2 

ICTs) 7 loge 1 7 1082 F 1 

因此 ,得 到 属性 contest MEH : 
EC"contest") = 5 x 0. 8113 + X 0. 8631 +4 xX 1 = 0. 8858 


对 应 的 信息 增益 为 : 
GC"contest") = I(T) — EC"contest") = 0. 0325 
(3) 对 于 分 类 属性 scholarship Kit, evaluation 有 2 个 取 值 Cexcellent 和 fair) ,把 样本 
集 工分 为 2 个 子 集 {T) To} Wa a 


7 2 

I(T,) + log, 可 -4 log, 77 0. 7642 
2 2 4 4 

ICT) = logs $6 log, 37 0.9183 


因此 ,得 到 属性 evaluation AY AY : 
EC"evaluation") = 2 x 0. 7642 +É x 0. 9183 = 0. 8258 
应 的 信息 增益 为 : 
G("evaluation") = I(T) — EC"evaluation") = 0. 0925 
(4) 对 于 分 类 属性 scholarship Xi , association 有 2 个 取 值 (yes 和 no) ,把 样本 集 工分 
为 2 个 子 集 {TT ,T: } ,每 个 子 集 的 信息 量 的 计算 过 程 如 下 : 


一 了 5 正三 P 
I(T,) z 1082 6 z log 6 0.65; 
5 5 4 4 
I(T) =— 9 loge T F log, 了 二 0.9911 


因此 ,得 到 属性 association AY Ai EC" association" yas 5 X 0. 65 +3 5 X 0. 9911 = 


0. 8547. 

对 应 的 信息 增益 为 G("association") 二 I(T) 一 E("association") 二 0. 0636。 

第 三 步 : 选择 信息 增益 最 大 的 属性 进行 节点 分 裂 。 

G( "exam score" )œG(" evaluation") œ>G(" association" )œ>G(" contest" ) ,所 以 选取 
最 大 增益 值 的 属性 exam score 作为 最 佳 分 裂 属性 ,同时 将 数据 集 分 为 3 个 子 集 , 如 
图 11. 3 所 示 。 

再 用 相同 的 方法 对 生成 的 3 个 子 集 进行 分 类 ,得 到 如 图 11.4 所 示 的 决策 树 。 

根据 生成 的 决策 树 ,可 以 判断 Jean good city-level excellent yes 属于 scholarship = yes 
这 一 类 。 

ID3 算法 构造 的 决策 树 按照 自 项 向 下 的 顺序 形成 了 一 组 类 似 IF…THEN 的 规则 。 在 
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exam score 


good average 
T, excellent T 
name contest evaluation association scholarship name contest evaluation association scholarship 
Danny city-level excellent no yes Cherry city-level fair yes yes 
Dave province-level fair yes no Amy school-level fair no no 
Maggie city-level excellent no yes John city-level excellent no no 
Alice city-level fair no no Jeery province-level ecxellent yes yes 
Jim province-level excellent no yes T Kate school-level excellent no no 
name contest evaluation association scholarship 
James school-level excellent yes yes 
Daisy school-level excellent no yes 
Mike province-level fair yes yes 
Bill city-level fair no yes 
Jessica city -level excellent yes yes 


图 11.3 将 数据 集 分 为 3 个 子 集 


图 11.4 实例 的 决策 树 示 意图 


上 边 的 例子 中 ,将 上 图 所 生成 的 决策 树 转化 为 规则 表示 如 下 : 

(1) IF exam score="good" and evaluation="excellent" THEN 类 别 为 yes; 

(2) IF exam score= "good" and evaluation= "fair" THEN 类 别 为 no; 

(3) IF exam score="excellent" THEN 类 别 为 yes; 

(4) IF exam score= "average" and association="yes" THEN 类 别 为 yes; 

(5) IF exam score= "average" and association="no" THEN 类 别 为 no。 

在 数据 挖掘 领域 中 ,存在 很 多 分 类 模型 ,决策 树 分 类 模型 是 使 用 最 广泛 的 方法 之 一 , 主 
要 是 由 于 决策 树 具 有 以 下 几 个 方面 的 优点 : 

(1) 可 以 生成 可 以 理解 的 规则 ; 

(2) 计算 量 相对 来 说 不 是 很 大 ; 

(3) 可 以 处 理 连续 值 和 离散 值 多 种 数据 类 型 ; 

(4) 决策 树 可 以 清晰 地 显示 哪些 字段 对 分 类 比较 重要 ; 

(5) 决策 树 技术 执行 效率 高 ,结果 表示 简单 直观 ; 

(6) 搜索 空间 是 完全 的 假设 空间 ,目标 函数 必 在 搜索 空间 中 ,不 存在 无 解 的 危险 。 

决策 树 方 法 对 记录 数 越 大 的 数据 库 , 它 的 效果 越 明 显 。 当 然 , 没 有 一 种 方法 是 十 全 十 美 
的 ,决策 树 也 存在 着 一 些 缺点 ,主要 有 以 下 几 个 方面 : 
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C1) 对 连续 性 的 字段 比较 难 预测 ; 

C2) 对 有 时 间 顺 序 的 数据 ,需要 很 多 处 理工 作 ; 

(3) 当 类 别 太 多 时 ,可 能 就 会 增加 很 多 误差 ; 

(4) 一 般 的 算法 分 类 时 ,只 是 根据 一 个 字段 来 分 类 ; 

(5) 决策 树 技术 是 一 种 “贪心 ”算法 ,这 种 算法 在 决定 当前 分 割 属性 时 根本 不 考虑 此 次 
选择 会 对 将 来 的 分 割 造成 什么 样 的 影响 ,每 次 分 割 完成 后 都 不 再 考察 此 次 分 割 的 合理 性 。 
它 并 不 从 整体 最 优 考 虑 ,所 做 出 的 选择 只 在 某 种 意义 上 的 局 部 最 优 。 也 就 是 说 , 它 可 能 收敛 
于 局 部 最 优 解 而 丢失 全 局 最 优 解 。 树 节点 中 属性 的 次 序 可 能 对 性 能 具有 负面 影响 。 
11.2.2 基于 关联 规则 的 知识 推理 

基于 规则 的 知识 推理 系统 中 的 知识 一 般 的 描述 形式 为 : 

IF< 证 据 (或 组 合 证 据 )>THEN< 假 设 >< 规 则 强度 > 

利用 关联 分 析 可 以 从 大 量 的 资料 或 数据 中 得 到 如 下 形式 的 关联 规则 : 

A 一 B( 支 持 度 , 置 信和 度 ) 

关联 规则 分 析 能 够 挖掘 发 现 大 量 数 据 中 项 集 之 间 有 趣 的 关联 或 相关 联系 ,展示 “属性 - 
值 ? 频 繁 地 在 给 定数 据 集中 一 起 出 现 的 条 件 。 产 生 支 持 度 和 置信 度 分 别 大 于 用 户 给 定 的 最 
小 支持 度 和 最 小 置信 度 的 关联 规则 ,形成 形 如 A 一 B 的 逻辑 草 涵 式 。 关 于 关联 规则 方法 的 
具体 介绍 请 参见 第 5 章 “ 关 联 规 则 模型 及 应 用 ”。 


11.2.3 基于 粗糙 集 的 知识 推理 


目前 ,基于 粗糙 集 的 规则 获取 主要 有 两 种 模式 。 模 式 A 由 Pawlak 教授 于 1991 年 提 
出 ,主要 思想 是 通过 寻找 属性 核 及 去 掉 多 余 的 属性 求 出 约 简 的 决策 表 , 并 从 最 简 决策 表 中 获 
取 相 应 的 确定 规则 。 模 式 BB 由 Wakulicz-Deja 等 人 于 1997 年 提出 ,主要 思想 是 直接 从 原始 
决策 表 中 求 取 近 似 集 ,并 运用 推理 引擎 ,分别 从 下 近似 集中 获取 确定 规则 ,从 上 近似 集中 获 
取 可 能 规则 。 基 于 粗糙 集 理论 的 推理 机 制 的 研究 过 程 包括 : 

(1) 根据 具体 问题 构造 相应 的 信息 系统 ; 

(2) 对 信息 系统 中 的 数据 和 信息 (包括 含糊 和 不 确定 性 信息 ) 按 照 某 种 准则 进行 离 
散 化 ; 

(3) 将 离散 化 后 的 数据 和 信息 构建 成 信息 表 或 决策 表 的 形式 ; 

(4) 利用 粗 燃 集 理论 中 的 核 .属性 约 简 、 属 性 值 约 简 、 相 关 度 等 概念 来 简化 信息 表 或 决 
RR: 

(5) 求 出 信息 表 或 决策 表 的 核 值 表 ; 

(6) 由 核 值 表 求 出 信息 表 或 决策 表 的 简化 形式 ; 

(7) 从 简化 后 的 信息 表 或 决策 表 中 求 出 最 佳 决 策 ( 或 推理 ) 算 法 ; 

(8) 比较 粗糙 推理 机 制 与 其 他 相关 的 推理 机 制 的 异同 点 ,如 模糊 推理 机 制 . 基 于 DS 证 
据 理论 的 推理 机 制 等 ; 

(9) 总 结 归 纳 出 具有 普遍 意义 的 粗糙 推理 机 制 、 模 型 和 方法 ,如 图 11.5 所 示 。 
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寻找 属性 核 
去 掉 多 余 属性 


全 
al 规则 获取 算法 gy EAU 


(a) 模式 A 


| 一 | 确定 规则 
决策 表 K 推理 引擎 
| 


上 近似 集 一 一 ”| 可 能 规则 


决策 表 


(b) 模式 B 
图 11.5 基于 粗糙 集 的 规则 推理 模式 


基于 粗糙 集 的 从 不 完备 信息 系统 获取 确定 规则 的 算法 具有 以 下 优点 ， 

(1) 不 改变 初始 不 完备 信息 系统 结构 ; 

(2) 获取 的 确定 规则 不 受 缺 省 值 的 影响 ; 

(3) 获取 的 是 最 简 规 则 ,具有 较 好 的 可 理解 性 和 较 强 的 泛 化 能 力 。 粗 糙 集 在 知识 推理 
领域 的 主要 研究 方向 是 对 粗糙 逻辑 的 研究 , 它 能 使 单调 逻辑 非 单调 化 ,从 而 在 不 确定 性 推理 
中 发 挥 巨大 作用 。 另 一 个 研究 方向 是 粗糙 函数 的 理论 和 应 用 , 它 促进 了 定性 推理 的 发 展 。 
关于 粗糙 集 理论 的 具体 介绍 请 参加 第 7 章 * 粗 糙 集 方法 与 应 用 ”。 


11.3 小 结 


本 章 主 要 介绍 了 知识 推理 的 主要 分 类 ,包括 非 单调 推理 , 非 确 定性 推理 、 基 于 规则 的 推 
理 .基于 案例 的 推理 和 定性 推理 以 及 基于 决策 树 ,关联 规则 和 粗糙 集 的 数据 挖掘 和 知识 发 现 
方法 在 知识 推理 中 的 应 用 。 


思 考题 


. 列举 知识 推理 的 主要 种 类 。 
.什么 是 基于 案例 的 推理 ? 

. 非 确定 性 推理 方法 分 别 有 哪 些 ? 
. 应 用 基于 决策 树 的 知识 推理 。 
. 应 用 基于 关联 规则 的 知识 推理 。 
. 应 用 基于 粗糙 集 的 知识 推理 。 
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